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Linuax 


直接 与 内 核 及 C 程序 库 对 需 


LINUX 系统 编程 


在 某 些 时 肇 ， 帮 了 ”一 和 处 操作 系统 中 的 系统 调用 和 程序 库 打 
二 时 | 交道 。 本 书 主要 一 代码 位 于 底层 ， 并 且 直 接 跟 内 核 及 核 
到 心 系统 程序 库 对 襄 i 用 标 淮 接口 包括 使 用 Linux 独 有 的 高 级 
接口 时 ， 在 功能 和 性 能 之 则 如 

读书 同样 也 是 一 本 内 行人 士 编 写 灵 活 高 效 代 码 的 学 习 指南 。 作 为 内 核 秋 客 和 本 书 的 作者 ，Robert 
Love 不 仅 前 释 了 系统 接口 应 该 如 何 工 作 ， 还 介绍 了 它们 实际 上 是 如 何 工 作 的 ， 以 及 怎样 安全 有 效 
地 使 用 它们 。 《Linux 系 统 编程 》 包 含 了 帮助 你 在 任何 层面 编写 更 佳 代码 的 实用 技巧 。 


本 书 主 题 包括 ， 


。 读 写 文件 以 及 其 他 文件 LO 操作 ， 包 括 Linux 内 核 如 何 实现 和 管理 文件 WO， 内 存 映 射 与 优化 技术 
。 ”进程 管理 的 系统 调用 ， 包 括 实 时 进程 

。 文件 与 目录 一 一 创建 、 移 动 、 复 制 、 删 除 和 管理 

。 内 存 管理 一 一 内 存 分 配 接口 ， 管 理 内 存 ， 以 及 优化 内 存 访 问 

。 信号 及 其 在 Unix 系 统 中 的 角色 ， 以 及 基本 和 高 级 信号 接口 

。 了 时间、 休眠 和 时 钟 管理 ， 从 基础 开始 讲述 ， 并 且 涵 盖 POSIX 时 钟 和 高 精度 计时 器 

拥有 《Linux 系 统 编程 》， 你 将 从 理论 和 应 用 的 角度 深入 了 解 Linux， 可 以 最 大 限度 地 利用 系统 的 法 
能 。 

Robert Love 很 早 就 成 为 一 位 Linux 用 户 和 黑客 。 他 一 直 并 且 充 满 激 情 地 活跃 在 Linux 内 核 与 
GNOME 桌 面 社区 之 中 。 他 近来 为 Linux 内 核 作出 的 贡献 包括 内 核 事 件 层 方面 的 工作 以 及 inotify， 
GNOME 相 关 的 贡献 包括 Beagle、GNOME 卷 管理 器 、 网 络 管理 器 以 及 Project Utopia 等 。 目 前 ， 
Robertt 供 职 于 Google 开 源 软件 办 公 室 。 
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封面 设计 


本 书 的 封面 是 一 个 在 飞行 器 里 的 人 人。 在 菜 特 兄弟 于 1903 年 做 出 第 一 个 比 空气 还 重 
的 载 人 器 之 前 ， 世 界 各 地 的 人 们 都 想 要 乘坐 莘 单 但 精心 制作 的 机 器 来 飞行 。 


2 或 3 世纪 ， 据 说 中 国 的 诸葛 亮 发 明了 可 以 在 空中 飞行 的 孔明 灯 (天 灯 )， 这 是 热气 
球 的 始祖 。5 或 6 世纪 左右 ， 据 称 中 国有 许多 人 将 自己 绑 在 大 型 凤 稳 上 飞行 于 空中 。 


还 有 一 种 说 法 ， 中 国 所 创造 的 旋转 玩具 (和 狂 晴 晓 ) 是 直升机 的 锥 型 , 它 的 外 观 可 能 局 
发 了 达 芬 可 设计 出 直升机 的 原型 ， 以 作为 人 类 飞行 的 解决 方案 。 达 芬 奇 还 研究 鸟 类 ， 
并 且 设 计 出 了 降落 伞 。1845 年 ， 他 设计 出 了 扑 翼 机 (ornithopter), 这 是 一 个 可 以 载 
人 的 持 动 双翼 的 飞行 器 .尽管 他 未 曾 制造 过 和 它 ,但 是 扑 屠 机 与 久 相 似 的 结构 影响 了 整 
个 世纪 的 飞行 器 的 设计 。 


封面 所 描绘 的 飞行 器 相 较 于 James Means 于 1893 所 设计 的 滑翔 机 模型 【没有 螺旋 
半 ) 更 是 精心 杰作 。 Means 之 后 为 他 的 滑翔 机 出 版 了 说 明 书 , 书 中 提 到 “Mt. Willard 
山顶 ， 靠 近 Crawford House, N.H.， 找 到 了 一 个 很 好 的 地 方 ， 可 以 实验 这 些 机 器 ,，” 


但 这 样 的 实验 往往 很 谍 险 。 19 世纪 晚期 ，Otto Lilienthal 制造 出 了 单 时 机 
(monoplane)、 双 姻 飞 机 (biplane) 以 及 滑翔 机 【glider) 。 他 首先 证 明 ， 载 人 飞行 器 
可 以 飞行 至 伸手 可 及 的 距离 之 和 内, 他 获得 了 “飞行 测试 之 妇 的 昵称 , 因为 他 进行 了 
2000 多 次 滑翔 机 的 飞行 测试 ， 有 时 可 以 飞行 超过 1000 英尺 的 距离 。 在 一 次 紧急 着 
陆 折 断 他 的 着 椎 骨 后 ， 他 于 1896 年 拜 世 。 


飞行 器 也 被 称 为 机 械 岛 【mechanical bird) 以 及 飞艇 (alrship)， 并 偶尔 会 获得 更 加 
丰富 多 彩 的 名 字 ,， 例如 人 造 信 天 条 【Artificial Albatross) ， 飞 行 器 的 热潮 仍 持 续 着 . 
因为 航空 发 烧 丰 们 仍 在 制造 早期 的 飞行 器 。 
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每 当 Linux 内 核 开发 者 不 高 兴 的 时 候 总 是 喜欢 后 出 一 句 话 :“ 用 户 空 间 只 是 内 核 的 一 个 
试验 负载 (test load) 。 


内 楼 开发 者 之 所 以 会 这 么 说 ,目的 是 于 任何 用 户 空 间 程序 代码 执行 失败 的 时 修 撤 清 所 有 
责任 。 当 所 发 生 的 问题 绝对 不 是 内 核 的 过 错时 , 他 们 所 美 心 的 是 用 户 空间 开发 者 应 该 去 
修正 他 们 目 己 的 程序 代码 。 


为 了 证 明 这 通常 不 是 内 核 的 过 错 , 3 年 多 前 , 一 位 具 领 导 地 位 的 Linux 内 核 开 发 者 曾 在 
挤 满 人 的 会 议 室 里 ， 以 “Why User Space Sucks” (为 何 用 户 空 间 程序 很 精 糕 ) 为 题 发 
表演 讲 , 他 举 出 实例 说 明 我 们 每 个 人 每 天 使 用 了 哪些 可 怕 的 用 户 空间 程序 代码 。 其 他 内 
核 开发 者 则 以 自己 创建 的 工具 来 展示 差劲 的 用 户 空 间 程序 如 何 滥 用 硬件 ,并 耗 尽 无 预警 
的 笔记 本 电脑 电 字 的 电量 ， 


尽管 用 户 空 间 程序 对 嘲笑 它 的 内 核 开发 者 而 言 可 能 只 是 一 个 “试验 负载 "， 不 过 这 些 内 
核 开发 者 也 是 每 天 都 得 依靠 这 些 用 户 空间 程序 。 如 果 没 有 用 户 空间 程序 可 用 , 所 有 的 内 
核 充其量 就 只 能 在 屏幕 上 交替 输出 ABABAB 样式 的 信息 。 


而 今 , Linux 已 经 成 为 有 史 以 来 最 灵活 、 最 强大 的 操作 系统 , 随处 都 可 以 看 到 它 的 踪迹 ， 
不 仅 最 小 型 的 手机 和 艇 人 式 装 置 运 行 它 ， 全 世界 前 500 台 速 度 最 快 的 超级 计算 机 中 也 
有 70 允 以 上 的 在 运行 它 。 其 他 操作 系统 从 未 曾 有 过 这 人 么 好 的 规模 , 也 不 会 遭受 各 种 硬件 
和 环境 的 挑战 。 


如 同 内 核 一 样 ， 在 Linux 的 用 户 空间 上 和 运行 的 程序 也 得 运作 在 各 种 平台 上 ， 以 人 们 所 
依赖 的 应 用 程序 和 公用 程序 提供 给 全 世界 使 用 。 


2 厅 


Robert Love 自 找 麻烦 地 想 要 教 读者 关于 Linux 系统 上 所 有 的 系统 调用 , 本 书 于 正 诞 生 。 
本 书 将 以 用 户 空间 的 观点 让 读者 全 面 了 解 Linux 内 核 的 运作 原理 ， 以 及 如 何 利用 此 系 
统 的 强大 功能 。 


本 书 将 告诉 你 如 何 创建 可 以 在 省 种 Linux 发 行 厂 本 以 及 硬件 平台 上 运行 的 程序 代码 。 本 
书 也 会 让 你 了 解 Linux 如 何 运 作 以 及 如 何 侠 用 它 的 灵活 性 。 


最 后 ， 也 是 最 好 的 一 件 事 ， 本 书 会 教 你 如 何 让 自己 所 编写 的 程序 不 会 太 差劲 。 


-一 一 Oreg Kroah-Hartman 


下 
pt 


本 书 所 要 探讨 的 是 系统 编程 一 一 特别 是 Linux 系统 编程 。 系统 编程 就 是 编写 系统 软件 ， 
也 就 是 位 于 底层 的 程序 代码 ， 它 可 以 直接 跟 内 核 与 核心 系统 链接 库 交 互 。 换 句 话 说 ,本 
书 的 主题 就 是 Linux 系统 调用 以 及 其 他 的 低 庙 冰 数 ， 例 如 C 链接 库 所 定义 的 。 


丸 管 已 经 有 许多 书 在 探讨 Unix 的 系统 编程 ， 但 很 少 有 只 将 焦点 放 在 Linux 上 的 ， 就 算 
有 ， 也 很 少 有 探讨 最 新 Linux 版 本 以 及 Linux 独 有 的 高 级 接口 的 。 此 外 ， 本 书 的 读者 
将 得 益 于 我 的 特殊 经 验 : 我 曾 为 Linux 编写 过 许多 程序 代码 (包括 内 核 以 及 系统 软件 
的 )。 事 实 上 ,我 曾经 实现 过 本 书 所 探讨 的 某 些 系统 调用 以 及 其 他 功能 。 因 此 ， 本 书 揭 
露 了 许多 内 幕 知识 ,不 仅 会 描述 系统 接口 应 该 如 何 运作 ,也 会 说 明 它 们 实际 的 运作 方式 ， 
以 及 你 (编程 者 ) 如 何以 最 有 效 的 方式 来 使 用 它们 。 所 以 本 书 是 Linux 系统 编程 的 教 
材 ， 也 是 Linux 系统 调用 的 参考 手册 ， 亦 是 编写 更 聪明 、 更 快 的 程序 代码 的 权威 指南 。 
本 书 内 容 有 趣 且 容易 理解 , 不 管 你 是 否 需要 每 日 编写 系统 层 的 程序 代码 , 本 书 都 会 教 你 
让 你 可 以 编写 出 较 理 想 程序 代码 的 诀窍 。 


本 书 的 读者 

本 书 假设 读者 已 经 熟悉 C 编程 以 及 Linux 编程 环境 ， 不 需要 精通 这 些 主题 ， 但 至 少 要 
了 解 它们 。 如 对 你 疝 未 读 过 任何 有 关 C 编程 语言 的 书籍 ， 例 如 Brian W. Kernighan 和 
Dennis M. Ritchie 的 经 由 之 作 《7The C Programming Language》 (Prentice Hall 出 版 ， 
本 书 就 是 大 家 所 熟悉 的 KKR) ， 我 强 列 建议 你 阅读 这 本 书 。 也 许 你 不 习惯 使 用 Unix 文 
本 编辑 融 ，Emacs 和 vim 是 最 常见 且 备 受 推崇 的 编辑 器 ， 你 可 以 择 一 使 用 。 你 还 应 读 
熟悉 gcc、gdb、make 等 工具 的 基本 用 法 。 市面 上 可 以 找到 许多 与 Linux 编程 工具 及 实 
践 有 关 的 书籍 ， 本 书 结 尾 的 参考 文献 列举 了 几 本 有 用 的 参考 书 。 


i 


了 用 


qu 





关于 Unix 或 Linux 系统 编程 ， 我 已 经 对 读者 所 应 具备 的 知识 作 了 以 上 假设 。 本 书 
将 从 基础 开始 谈 起 ,并 崇 紧 前 进 到 高 端 接口 及 优化 雇 穹 ,希望 所 有 层次 的 读者 都 会 觉 
得 这 是 一 本 值得 阅读 以 及 能 够 学 到 新 东西 的 书 ,在 本 书 的 写作 过 程 中 ,我 确实 是 这 么 
想 的 。 


我 也 不 是 没有 假设 本 书 读者 的 类 型 以 及 阅读 本 书 的 动机 ,本 书 适用 于 那些 希望 能 够 在 抵 
层 写 出 好 程序 的 工程 师 , 但 是 那些 想 在 自己 安身 之 处 寻找 更 稳固 立足 点 的 较 高 层 的 编程 
人 员 也 可 以 在 本 书 中 找到 许多 对 他 们 有 用 的 资料 。 


不 管 你 的 动机 是 什么 ， 祝 你 阅读 愉快 。 


本 书 的 内 容 
本 书 分 成 10 章 、1 个 附录 以 及 1 个 参考 文献 


第 一 章 介绍 与 夫 杰 租 念 
本 章 可 作为 导读 ， 它 概述 了 Linux、 系 统 编程 、 内 核 、C 链 搂 库 以 及 C 编译 攻 。 
即使 是 高 级 用 户 也 应 该 阅读 这 一 童 一 一 相信 我 。 
第 二 章 文件 MO 
本 章 将 介绍 文件 (Unix 环境 中 最 重要 的 抽象 概念 ) 以 及 文件 TO (Linux 编程 的 
基本 模式 )， 并 且说 明 如 何 进行 文件 的 读 写 以 及 其 他 基本 的 文件 VO 操作 ,最 后 还 
会 探讨 Linux 内 核 的 实现 和 管理 文件 的 方式 。 


第 三 章 组 六 式 VO 
本 章 将 探讨 基本 文件 IO 接口 的 问题 一 -缓冲 区 大 小 的 管理 ,以 及 介绍 一 般 的 组 
冲 式 WO (尤其 是 标准 UO) 作为 解决 方案 。 


第 四 章 高 级 文件 WO 
本 章 将 以 高 级 的 IO 接口 、 内 存 映 射 以 及 优化 技术 来 结束 本 书 对 IO 的 探讨 。 本 
章 还 会 附带 探讨 如 何 避 免 搜索 磁盘 以 及 Linux 内 核 的 1O 调度 程序 扮演 何 种 角 
色 。 

第 五 章 进程 管理 


本 章 将 介绍 进程 (Unix 中 第 二 重要 的 抽象 概念 ) 以 及 基本 进程 管理 的 一 系列 系统 
调用 ， 包 括 令 人 尊敬 的 fork。 


第 六 重 高 级 进 硼 管理 
本 章 将 继续 探讨 高 级 进程 管理 ， 包 后 实时 进程 。 

第 七 章 文件 和 日 雹 德 型 
本 章 将 探讨 创建 、 移 动 、 复 制 、 删 除 以 及 其 他 用 来 管 埋 文 件 和 目 永 的 功能 。 

第 八 章 内 闻 优 理 
本 音 将 说 明 内 存 管理 。 首先 会 介绍 Unix 的 内 存 概 念 , 例如 进程 地 址 空间 以 及 页 血 
调度 (paging), 接着 会 探 计 从 内 核 取 得 内 存 空间 以 及 将 内 存 空间 释 回 内 楼 的 接口 。 
最 后 会 探讨 进 阶 的 内 存 相 关 接 口 。 

第 九 章 信号 
本 章 将 说 明 信 号 。 首先 会 探讨 信号 以 及 它们 在 Unix 系统 中 所 扮演 的 骨 色 。 然 后 会 
说 明 依 号 接口 ， 先 探讨 基本 部 分 ， 再 探讨 高 级 部 分 。 

第 士 童 府 厅 
本 章 将 探讨 时 间 、 修 眠 以 及 时 和 钟 管理 。 本 章 会 从 基 本 的 接口 开始 谈 起 ,一 直到 35 
POSIX 时 钟 以 及 高 精度 定时 器 。 

附录 GCC 娃 人 证 店 的 扩展 
本 附录 会 回顾 gee 和 GNUC 所 提供 的 许多 优化 功能 , 例 和 加 constant, pure 和 inline 
等 用 来 标记 明 数 的 属性 。 

本 书 最 后 提供 了 --- 份 参考 书目 , 列 出 了 对 系统 编程 有 帮助 以 及 论述 本 书 未 提 到 的 必 备 知 

识 的 相关 书籍 。 


本 书 所 涵盖 的 版 本 

Linux 系统 接口 可 被 定义 成 Linux 内 核 ( 操 作 系 统 的 中 心 组 件 ), GNU C 链接 库 (glibe) 
以 及 GNU C 编 详 器 (gece 现在 被 正式 称 为 GNU Compiler Collection, 但 是 我 们 
只 关心 编译 器 ) 三 者 所 提供 的 应 用 程序 二 进 制 接口 (application binary interface ) 
以 及 应 用 程序 编程 接口 《application programming interface)。 本 书 内 容 涵 盖 Linux 
内 核 2.6.22 版 、glibe 2.5 版 以 及 gec 4.2 版 三 者 所 定 交 的 系统 接口 。 本 书 对 系统 接口 
所 做 的 说 明 应 该 可 以 同 下 若 容 于 较 旧 的 版 本 (不 舍 新 的 接 日 ) 以 及 向 上 茹 容 于 较 新 的 
版 本 。 





中 


6 前 





如 果 任 何 进 化 中 的 操作 系统 是 一 个 移动 的 目标 ，Linux 就 是 一 只 饥 渴 的 猫 欧 。Linux 的 
进展 是 以 日 数 (而 非 年 数 ) 来 度量 的 , 它 频 繁 地 发 布 内 核 与 其 他 组 件 并 且 在 不 断 变 化 中 。 
没有 哪 一 本 书 可 以 永久 捕获 这 只 充满 活力 的 怪兽 。 

尽管 如 此 , 系统 编程 所 定义 的 编程 环境 却 不 再 改变 。 内核 开发 者 尽 可 能 不 去 改变 系统 调 
用 ，glibc 开发 者 高 度 重视 向 上 (forward) 和 向 下 兼容 (backward compatibility) ， 而 
且 Linux 工具 链 (toolchain) 可 以 产生 跨 版 本 (特别 是 C 语言 的 ) 的 兼容 程序 代码 。 
因此 ， 尽 管 Linux 不 断 在 变化 ，Linux 系统 编程 仍 能 保持 稳定 。 我 想 说 的 事情 很 简单 ， 
不 要 担心 系统 接口 有 任何 变化 ， 购 买 本 书 就 对 了 1 


本 书 的 排版 惯例 
下 面 是 本 书 的 排版 惯例 : 


斜体 字 (ltalic) 
用 于 强调 、 新 术语 、 URL、 外 来 词汇 、Unix 命令 与 实用 程序 、 文 件 名 、 目 录 名 以 
及 路 径 名 称 。 
等 宽 字 【Constant Width) 
用 于 指出 头 文件 . 变量 , 属性 、 函 数 、 类 型 、 参 数 、 对 象 、 宏 以 及 其 他 编程 结构 。 
等 帘 斜 体 字 (Constant Width Italic) 
用 于 指出 以 用 户 提 供 的 值 蔡 换 的 文本 (例如 路 径 名 称 组 件 )。 


此 图 标 代表 诀 穿 、 建 议 或 一 般 注 意 事 项 。 





本 书 大 部 分 的 程序 将 以 简洁 、 实 用 的 程序 代码 片段 来 呈现 ， 例 如 : 


while (1) { 
int ret; 


ret = fork (): 
if {ret == -1) 
perror ("fork"); 


} 


本 书 笋 费 昔 心地 提供 简洁 而 实用 的 程序 代码 片段 。 你 不 会 看 到 特殊 的 头 文件 、 没有 节制 
的 安 和 难以 辨认 的 快捷 方式 ， 你 不 会 看 到 庞大 的 程序 , 你 所 看 到 的 是 许多 简单 的 范例 程 
序 。 本 书 的 范例 不 仅 摘 述 充 分 、 完 全 可 用 ， 而 且 小 而 明确 , 我 希望 这 些 范例 在 读者 首次 


前 言 / 


阅读 本 书 时 能 提供 一 个 有 用 的 指导 ,而 且 在 之 后 多 次 阅读 本 书 时 仍然 能 成 为 很 好 的 参考 


本 书 所 有 范例 几乎 都 是 各 自 独立 的 。 这 意味 着 你 可 以 轻易 地 将 它们 复制 到 你 的 文本 编辑 
器 中 ,将 它们 使 用 在 实际 的 用 途上 。 除 非 另 有 提 及 ， 否 则 所 有 的 程序 代码 在 编译 时 应 该 
不 需要 用 到 任何 特殊 的 编译 器 标志 (只 有 在 少数 的 情况 下 , 才 需 要 连接 特殊 的 链接 库 )。 
建议 使 用 如 下 的 命令 编译 源 文件 : 


$s gce -Wall -Wextra -O02 -可 -0 snippet snlippet.c 


这 条 命令 会 将 源 文 件 snippet.c 编译 成 可 执行 的 二 进 制 文件 snippet， 启 动 许多 警告 检 
查 , 进行 显著 但 合理 的 优化 以 及 调试 。 本 书 的 程序 代码 使 用 这 条 命令 进行 编译 应 该 会 产 
生 错 误 或 警告 一 一 当然 ， 你 可 能 首先 需要 为 snippet (程序 代码 片段 ) 建立 一 个 骨架 
程序 。 


介绍 新 函数 时 ， 本 书 会 采用 常见 的 Unix manpage 格式 并 以 黑体 字 强 调 ， 如 下 所 示 
#include <fcntl.h> 


int posix fadvise {int fd, off t pog, off t len, int advice); 


所 需要 的 头 文件 以 及 任何 必要 的 定义 都 会 放 在 开头 ， 后 面 跟 着 完整 的 调用 原型 。 


使 用 范例 程序 


本 书 的 宗旨 是 协助 你 完成 工作 。 一 般 而 言 ， 你 可 以 将 本 书 的 程序 代码 用 于 你 的 程序 中 ， 
或 是 在 文档 里 提 及 而 无 需 取 得 我 们 的 同意 ,除非 你 想 大 幅 引 用 。 举 例 来 说 , 使 用 本 书 范 
例 的 几 个 程序 代码 片段 无 需 经 过 我 们 的 同意 ， 但 如 果 打 算 将 O'Reilly 书籍 里 的 范例 程 
序 制作 成 光盘 销售 或 散布 则 需要 授权 ;引用 本 书 内 文 或 程序 代码 片段 来 回答 问题 不 需要 
授权 ， 但 如 果 在 你 的 产品 说 明 书 里 大 量 引用 本 书 范例 则 需要 知 会 我 们 。 


如 果 你 引用 本 书 (内 文 或 范例 程序 ), 我 们 会 感谢 你 注 明 出 处 , 但 没 要 求 你 必须 得 这 么 
做 。 如 打 你 愿意 ， 请 注 明 书 名 、 作 者 、 出 版 公司 以 及 ISBN。 人 和 例如,，" Linux System 
Programming by Robert Love. Copyright 2007 O Reilly Media, Inc., 978-0-596- 
00958-8 ”。 





二 天 日 
建议 和 问题 
O'Reilly 公 司 是 世界 级 的 计算 机 信息 出 版 公司 。 我 们 永远 乐意 听 到 读者 对 出 版 品 的 意见 ， 
包括 如 何 让 本 书 可 以 更 好 的 建议 .指正 本 书 的 错误 或 是 读者 建议 本 书 往 后 改版 时 应 该 再 
加 进来 的 其 他 主题 。 以 下 是 本 公司 的 联络 资料 : 
美国 : 

OReilly Media, Inc. 

1005 Gravenstein Highway North 

Sebastopol, CA 93472 


中 国 : 
100035 北 页 市 西城 区 西直门 南大 街 2 与 成 馈 大 厦 CC 座 807 室 
和 与 沫 利 技术 咨 词 (北京 ) 有 限 公司 

我 们 为 于 书 建 立 了 网 页 ， 列 出 勤 误 、 样 例 和 任何 附加 的 信和 旧 。 你 可 以 访问 : 
htip:/Hwww.oreilly.com/catalos/9780596009588 (原版 书 ) 
htip:/www.oreilly.com.cn/book.php?bn=978-7-5641-1319-7 (中文 版 ) 

关于 本 书 的 评论 或 者 技术 问题 ， 发 适 电子 邮件 给 : 
bookauestions @oreilly.com 
info @ mail.oreilly.com.cn 

获得 关于 我 们 的 图 书 、 会 议 ， 资 源 中 心 以 及 O'Reilly Network 的 信息 ， 可 访问 网 站 : 


htip:/Wwww.oreilly.com 


htip:/www,.oreilly.com.cn 


本 书 是 在 许多 人 的 协助 之 下 完成 的 , 尽管 可 能 挂 一 漏 万 , 不 过 我 真诚 地 感谢 那些 一 路 上 
鼓励 、 指 导 并 支持 我 们 的 友人 们 。 


Andy Oram 是 一 位 不 平凡 的 编辑 人 物 , 没有 他 的 努力 我 是 无 法 完成 这 项 艰难 的 工作 的 。 
难得 的 是 ，Andy 夫妇 熟知 如 何 用 英语 写 诗 的 技术 。 


Brian Jepson 曾 做 过 本 书 的 编辑 , 尽管 编辑 已 经 换 人 ， 他 所 做 的 努力 仍 继续 在 本 书 中 剑 
波 汤 湾 着 。 


dil 
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本 书 有 痊 能 够 找到 学 有 专 精 的 人 士 作 为 技术 审阅 者 ,没有 他 们 的 努力 本 书 和 将 不 是 你 现在 
看 到 的 样子 。 这 些 技术 审阅 者 是 Robert Day 、Jim Lieb 、Chris Rivera、Joey Shaw 以 及 
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介绍 与 基本 概念 





这 征 一 本 关于 系统 编程 (system programmineg ) 这 是 一 门 关 于 编写 系统 软件 
(system software) 的 艺术 。 系 统 软件 位 于 低层 ( 译 ， 和 直接 跟 内 核 (kernel) 及 核 
心 系统 链接 库 (core system library) 交互 。 ee 的 shell、 你 的 文本 编辑 器 、 
你 的 编译 器 和 调试 器 、 你 的 核心 实用 程序 (core utility) 以 及 系统 守护 进程 (system 
daemon)。 这 些 组 件 全 都 是 基于 内 核 和 C 链接 库 的 系统 软件 。 许 多 其 他 的 软件 (例如 
高 级 GUI 应 用 程序 ) 大 多 位 于 高 层 , 只 会 偶尔 进入 低层 。 有 些 程序 设计 者 (programmer) 
会 将 所 有 的 时 间 全 部 投入 系统 软件 的 编写 上 ;有 些 程序 设计 者 则 只 花 部 分 的 时 间 在 此 工 
作 上 。 然 而 , 不 论 是 哪 一 种 程序 设计 者 , 都 可 以 从 了 解 系统 编程 获得 好 处 。 不 管 系统 编 
程 是 否 为 程序 于 设计 者 生活 的 目标 , 或 者 仅 是 高 级 概念 的 基础 , 都 是 我 们 所 编写 软件 的 中 
心 所 在 。 


本 书 专门 讨论 Linux 上 的 系统 编程 。 Linux 是 一 个 现代 的 Unix-like 系统 , 它 是 由 Linus 

Torvalds 以 及 世界 各 地 组 织 松散 的 黑客 社 群 从 无 到 有 编写 而 成 的 。 尽 管 Linux 的 ce 
和 思想 信用 上 自 Unix， 但 是 Linux 并 非 Unix。Linux 的 设计 完全 是 按照 自己 的 想法 ， 它 

的 理想 与 Unix 背道而驰 ， 与 Unix 一 致 的 只 有 使 用 的 方式 。 一 般 来 说 ，Linux 
程 的 核心 部 分 (core) 同 任何 其 他 Unix 系统 一 样 。 然 而 基础 之 外 ，Linux 在 自己 特有 
的 部 分 有 很 优异 的 表现 一 一 与 传统 的 Unix 系统 相 比较 .Linux 里 充斥 着 额外 的 系统 调 

用 、 不 一 样 的 表现 以 及 新 的 功能 。 


评注 1: 软件 可 分 成 两 大 类 : 应 用 软件 和 系统 款 件 。 应 用 软件 由 “为 用 户 而 设计 的 ”程序 所 构成 ， 
系统 软件 由 “与 计算 机 硬件 交互 的 ”或 “提供 基础 功能 的 ”程序 所 构成 ， 应 用 软件 的 执 
行 必须 通过 系统 软件 所 提供 的 基础 功能 。 这 就 是 所 谓 的 软件 横 : 应 用 软件 位 于 高 层 ， 而 
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系统 编程 


就 传统 来 说 ， 所 有 的 Unix 编程 皆 为 系统 层 的 编程 。 以 往 ，Unix 系统 中 并 未 包括 许多 层 
次 较 高 的 抽象 层 。 即 使 是 在 开发 环境 〈 例 如 X Window System) 中 的 编程 ， 双 眼 所 见 
的 也 全 都 是 Unix 系统 的 核心 API。 因 此 ， 大 体 上 来 说 ， 本 书 是 一 本 探讨 Linux 编程 的 
书 。 但 请 注意 ， 本 书 并 不 会 提 到 Linux 编程 环境 一 一 找 不 到 make 的 相关 指南 。 本 书 
所 要 探讨 的 是 一 个 现代 Linux 机 器 提供 给 我 们 的 系统 编程 API。 


系统 编程 常 被 拿 来 跟 应 用 程序 编程 作 比 较 。 尽 管 系统 层 和 应 用 层 的 编程 在 某 些 方面 有 所 
不 同 , 但 是 在 其 他 方面 并 非 如 此 。 与 应 用 程序 员 截 然 不 同 之 处 在 于 , 系统 程序 员 必 须 对 
他 们 所 操作 的 硬件 和 操作 系统 了 如 指 掌 。 当然 , 它们 所 使 用 的 链接 库 与 所 进行 的 调用 也 
不 一 样 。 这 两 者 实际 上 并 没有 很 多 互 换 性 ,这 取决 于 应 用 程序 被 编写 在 栈 中 哪 一 层 , 但 
是 一 般 来 说 ， 从 应 用 编程 转变 到 系统 编程 并 不 难 (反之 亦 然 )。 尽 管 应 用 程序 位 于 栈 中 
的 极 高 层 ， 与 最 低层 的 系统 程序 相去 其 远 ,， 但 是 系统 编程 的 知识 非常 重要 。 好 的 实践 
(good practice) 同时 适用 于 任何 形式 的 编程 。 


过 去 这 几 年 呈现 出 一 个 趋势 ， 应 用 编程 正 远离 系统 层 的 编程 ， 并 通过 Web 软件 【例如 
JavaScript 或 PHP) 或 者 托管 程序 代码 (译注 2) 【例如 C# 或 Java) 朝 非常 高 水 平 的 方 
同 发 展 。 事 实 上 ， 仍 需要 有 人 编写 JavaScript interpreter (解释 器 ) 以 及 C# runtime 
(运行 时 环境 ), 这 本 身 就 是 系统 编程 。 此 外 , 编写 PHP 或 Java 程序 的 开发 者 仍 可 得 益 
于 系统 编程 的 知识 ， 因 为 若 能 了 解 其 内 部 的 运作 原理 ， 你 就 能 够 写 出 较 好 的 程序 代码 ， 
无 论 程 序 代码 是 在 栈 中 的 哪个 层次 编写 的 。 


应 用 编程 有 这 样 的 趋势 ， 但 仍 有 许多 的 Unix 和 Linux 程序 代码 是 在 系统 层 编写 
其 中 大 部 分 是 用 C 语言 写成 ， 而 且 主 要 存在 于 C 链接 库 和 内 核 所 提供 的 接口 上 。 
Apache、pbash、cp，Emacs、init，gcc、gdb、glibc，ls、mv、vim 以 及 XX 皆 属 于 传统 
的 系统 编程 。 这 些 应 用 程序 都 不 会 很 快 消失 。 


系统 编程 的 范畴 通常 包含 内 核 开 发 ， 或 者 至 少 包 括 设备 驱动 程序 的 编写 。 但 是 本 书 ， 如 
同 探讨 系统 编程 的 多 数 书 籍 一 样 ， 并 不 关心 内 核 开 发 之 事 。 相 反 ,， 本 书 把 重点 聚焦 于 用 
户 空 间 的 系统 层 的 编程 , 也 就 是 内 核 之 上 的 每 一 件 事 (尽管 对 内 核 内 部 的 了 解 对 本 书 的 
阅读 有 莫大 的 帮助 )。 同 样 地 ， 网 络 编程 ( socket 之 类 ) 也 不 在 本 书 讨 论 之 列 。 设 备 
蝶 动 程序 的 编写 以 及 网 络 编程 都 是 大 而 广泛 的 题目 ， 最 好 是 以 专著 来 探讨 。 


什么 是 系统 层 的 接口 ， 在 Linux 中 如 何 编写 系统 层 的 应 用 程序 ? 内核 和 C 链接 库 提 供 
了 哪些 东西 ? 如 何 编写 出 理想 的 程序 代码 ,Linux 提供 了 哪些 工具 ? 相 较 于 其 他 的 Unix 


译注 2: 托管 程序 代码 (managed code) 意 指 程序 代码 的 执行 并 非 通 过 操作 系统 ,而 是 通过 虚拟 
机 {virtual machine)。 然 而 此 发 展 并 未 预示 系统 编程 的 氟 亡 ， 
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变 体 , Linux 提供 了 哪些 系统 调用 ? 这 一 切 是 如 何 运作 的 ?这 些 问题 都 是 本 书 所 要 探讨 
的 中 心 议题 。 


Linux 的 系统 编程 有 三 个 基石 : 系统 调用 、C 链接 库 以 及 C 编译 器 。 这 三 者 中 的 每 一 
个 部 值得 加 以 介绍 。 


系统 调用 
系统 编程 从 系统 调用 (system call) 开始 。 系 统 调 用 《 稍 简 写 为 syscalls) 就 是 国 数 调 
用 (function invocation),， 从 用 户 空 间 (你 的 文本 编辑 上 器、 游戏 程序 等 ) 进入 内 核 ( 系 
统 的 基础 组 件 )， 以 便 向 操作 系统 请 求 特定 的 服务 或 资源 。 系 统 调用 的 范围 从 第 见 的 
read{) 和 write() 到 少见 的 get_thread area() 和 set_tid_address{) 
都 涵盖 在 内 。 


Linux 所 实现 的 系统 调用 远 少 于 多 数 其 他 操作 系统 的 内 核 。 举例 来 说 , Linux 的 1386 架 
构 的 系统 调用 大 约 有 300 个 ,而 Microsoft Windows 之 上 据说 有 上 和 于 个 .就 Linux 内 核 
而 言 ， 每 种 机 器 架构 (例如 Alpha、i386 或 PowerPC) 都 会 实现 可 供 自 己 使 用 的 系统 
调用 。 因 此 ， 可 在 某 种 架构 上 使 用 的 系统 调用 可 能 不 同 于 另 一 个 架构 上 所 使 用 的 。 尽 管 
如 此 ， 系 统 调 用 中 有 绝 大 部 分 (超过 90 免 ) 是 所 有 架构 都 会 实现 的 。 本 书 所 要 探讨 的 就 
是 这 些 每 种 架构 都 提供 的 通用 接口 。 


调用 (invoking) 系 统 调用 

直接 链接 用 户 室 间 应 用 程序 (user-space application) 与 内 核 空间 (kernel space) 是 不 
可 能 的 。 基 于 安全 性 和 可 靠 性 的 理由 , 用 户 空间 应 用 程序 不 得 执行 内 核 程 序 代码 或 者 操 
作 内 核 数 据 。 相 反 ， 内 核 必须 提供 一 种 机 制 , 让 用 尸 空 间 应 用 程序 得 以 “通知 ”内 核 它 
想 调用 (invoke) 的 系统 调用 。 然 后 应 用 程序 可 以 通过 这 个 定义 明确 的 机 制 进入 内 核 空 
间 , 但 是 仅 能 执行 内 核 允 许 执行 的 程序 代码 。 实际 的 机 制 因 架构 而 异 。 例如 , 在 1386 上 ， 
用 户 空间 应 用 程序 会 使 用 0x80 这 个 值 来 执行 软件 中 断 指令 int。 这 个 指令 会 切换 到 
内 核 空间 ,在 这 个 受 保护 的 内 核 领 域 中 , 内核 会 执行 软件 中 源 处 理 器 (software interrupt 
handler) 一 一 而 中 断 问 量 0x80 的 处 理 妮 是 什么 ”难道 没有 其 他 的 系统 调用 处 理 器 1 


应 用 程序 可 经 机 器 寄存 器 (machine register) 通知 内 棱 它 想 执行 哪个 系统 调用 以 及 执行 
时 使 用 哪些 参数 。 系 统 调 用 以 从 0 开始 的 数字 来 指定 。 在 1386 架构 上 ， 如 果 要 调用 
(invoke) 编号 为 5 的 系统 调用 (正好 是 open({))， 用 户 空 间 应 用 程序 在 下 达 int 指 
令 之 前 应 该 将 数字 5 填 人 寄存 器 eax。 


参数 的 传递 以 类 似 的 方式 处 理 。 例 如 ， 在 i386 上 ， 系 使 用 寄存 器 来 存放 每 一 个 可 能 的 
参数 一 一 寄存 三 ebx、ecx、edx、esi 和 edi 依次 用 来 存放 前 5 个 参数 。 一 个 系统 
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调用 很 少 会 用 到 5 个 以 上 的 参数 ， 它 可 以 利用 一 个 寄存 器 指向 用 户 空间 中 用 来 存放 所 
有 参数 的 缓冲 区 。 当 然 ， 多 数 系 统 调 用 只 会 用 到 一 对 参数 。 


其 他 架构 处 理 系 统 调用 调用 (system call invocation) 的 方式 则 有 所 不 同 ， 然 而 精神 是 
一 样 的 。 身 为 一 个 系统 编程 者 , 你 通常 不 需要 知道 内 核 处 理 系统 调用 (invocation ) 的 调 
用 细节 。 该 细节 已 被 编码 进 架构 的 标准 调用 规则 (standard calling convention) 中 ,由 
编译 器 和 C 链接 库 自 动 处 理 。 


C 链接 库 

C 链接 库 (libe) 是 Unix 应 用 程序 的 中 心 组 件 。 即 使 你 是 以 其 他 语言 进行 编程 ，C 链 
接 库 也 几乎 会 派 得 上 用 场 ， 通 过 较 高 层次 链接 库 的 包装 ，C 链接 库 可 以 提供 核心 服务 
(core service) 以 及 简化 系统 调用 调用 。 在 现代 的 Linux 系统 上 , C 链接 库 提供 自 GNU 
libc， 简 写 为 glibc ( 念 成 gee-lib-see， 比 较 少 念 成 glib-see)， 


除了 实现 标准 的 C 链接 库 ，glibc 还 提供 了 系统 调用 的 封装 程序 、 对 线程 的 支持 以 及 基 
本 的 应 用 程序 工具 。 


C 编译 器 

在 Linux 中 ， 标 准 的 C 编译 器 提供 目 GNU Compiler Collection 【gcc)。 最 初 的 gec 指 
的 是 GNU 版 的 cc (C Compiler)j。 因 此 ，gcc 代表 的 是 GNU C Compier。 随 着 时 间 的 
推进 ， 其 所 支持 的 语言 越 来 越 多 ， 因 此 gce 成 为 了 GNU 编译 器 族 的 通称 。 然 而 ，gcc 
也 是 一 个 用 来 调用 C 编译 器 的 二 进 制 文 件 。 在 本 书 中 ， 当 我 谈 到 gcc 的 时 候 ， 我 通常 
是 指 gece 程序 ， 除 非特 别 声明 。 

Unix 系统 一 一 包括 Linunx， 有 所 使 用 的 编译 器 与 系统 编程 有 帘 切 的 关系 ， 因 为 编译 副 会 
协助 实现 C 标准 (参见 “C 语言 标准 ”") 以 及 系统 ABIT (参见 “API 与 ABI")， 本 章 稍 
后 会 加 以 说 明 ， 


API 与 AB| 


程序 员 自 然 会 想 确 保 自 己 的 程序 能 角 在 自己 承诺 过 要 支持 的 所 有 系统 上 运行 ,不 论 是 现 
在 或 是 将 来 。 他 们 希望 自己 为 特定 Linux 发 行 包 所 写 的 程序 能 够 安全 地 在 其 他 Linux 
发 行 包 以 及 所 支持 的 其 他 Linux 架构 和 较 新 《或 较 人 旧 ) 的 Linux 版 本 上 运行 。 


在 系统 层次 上 , 有 两 套 独立 的 定义 和 摘 述 会 对 可 移植 性 造成 影响 。 一 个 是 应 用 编程 接口 
(application programming interface， 人 简称 API)， 而 另 一 个 是 应 用 程序 二 进 制 接口 
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(application binary interface， 简 称 ABI) 。 它 们 可 用 来 定义 和 描述 不 同 计算 机 软件 之 
则 的 接口 。 


API 

API 所 定义 的 接口 让 一 段 软件 可 以 在 源码 层 与 男 一 段 软件 沟通 。 通过 一 组 标准 接口 (通常 十 
函数 ) 所 提供 的 抽象 层 , 一 段 软件 (通常 是 , 但 未 必 是 较 高 层 者 ) 可 以 调用 劝 一 段 软件 
(通常 是 较 低 层 者 )。 举 例 来 说 ， 一 个 API 可 通过 一 组 函数 (用 来 提供 掺 绘 文字 所 需要 
的 一 切 功能 ) 把 在 屏幕 上 描绘 文字 的 概念 抽象 化 .API 接口 仅 定义 接口 ,而 实际 提供 API 
功能 的 软件 则 被 称 为 API 的 实现 (impliementation)。 


API 常 被 称 为 “contract”( 契 约 )。 这 并 不 正确 ,至 少 就 法 律 的 意义 来 说 ， 因 为 APIL 并 
非 two-way agreement (双方 所 签订 的 契约 )。API 的 用 户 (通常 是 较 高 层 的 软件 ) 对 
API 以 及 它 的 实现 并 未 有 任何 的 贡献 。 他 可 能 照 原样 来 使 用 API, 或 者 根本 就 不 使 用 。 
API 的 作用 只 在 确保 两 段 软 件 按 照 API 行事 以 及 且 备 源码 兼容 性 (source compatibiliry)， 
也 就 是 说 API 的 用 户 可 以 在 包含 API 实现 的 情况 下 成 功 完 成 编译 。 


一 个 实际 的 例子 是 API 定义 自 C 标准 , 实现 自 标 惟 C 链接 库 。 此 API 定义 了 一 套 基 础 
的 函数 ， 例 如 字符 串 操纵 例 程 。 


本 书 将 通 篇 讨论 现 有 的 各 种 API， 例 如 第 三 章 所 探讨 的 标准 1/O 链接 库 。 本 章 稍 后 会 
探讨 对 Linux 系统 编程 而 言 最 重要 的 API。 


ABB| 

API 定义 的 是 源码 接口 ， 而 AB1 定义 的 是 特定 架构 上 两 段 或 多 段 软件 之 间 的 低层 二 进 
制 接口 。ABI 定 义 了 一 个 应 用 程序 如 何 与 自己 交互 、 一 个 应 用 程序 如 何 与 内 核 交 互 以 及 
一 个 应 用 程序 如 何 与 链接 库 充 互 。ABI 可 人 确保 二 进 制 码 兼 容 性 (Binary compatibility)， 
这 让 一 段 目 标 码 (object code) 可 以 直接 使 用 在 具有 相同 ABI 的 任何 系统 上 而 不 需要 
ABI 所 关心 的 问题 包括 : 调用 规则 (calling convention)、 字 市 顺序 、 寄 存 器 使 用 、 系 
统 调 用 调 有 用、 链接、 链接 库 行为 以 及 二 进 制 目标 码 的 格式 。 例如， 调用 规则 的 定义 应 读 
包括 : 明 数 被 调用 的 方式 , 将 倒数 传递 给 函数 的 方式 , 哪些 寄存 器 将 被 保留 而 哪些 将 被 
破坏 ， 以 及 调用 者 (caller) 如 何 取得 返回 值 。 


尽管 有 人 多 次 尝试 为 特定 架构 上 的 多 种 操作 系统 (尤其 是 i386 上 的 Unix 系统 ) 定义 
单一 ABI, 但 是 都 不 是 非常 成 功 。 于 是 操作 系统 (包括 Linux) 倾向 于 定义 自己 认为 合 
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适 的 ABI。ABI 与 架构 密切 相关 ， 绝 大 多 数 的 ABI 所 涉及 的 都 是 机 器 特有 的 概念 ， 例 
如 特殊 的 寄存 器 或 组 合 指令 。 因 此 ， 每 一 种 机 器 在 Linux 上 都 有 自己 的 AB1。 事 实 上 , 我 
们 倾向 于 使 用 机 器 的 名 称 (例如 alpha 和 x86-64) 来 指称 特定 的 AB1。 


系统 程序 员 应 该 对 ABI 有 所 认识 , 但 是 通常 不 需要 加 以 背诵 。ABI 是 通过 工具 链 
(toolchain) 一 一 编译 器 、 链 接 器 等 来 实施 的 。 然 而 对 ABI 的 了 解 却 能 让 你 设计 出 较 
理想 的 程序 , 而 且 这 也 是 编写 汇编 代码 或 修改 工具 链 (毕竟 这 也 是 系统 编程 ) 需要 具备 
的 能 力 。 


用 于 Linux 上 特定 架构 的 ABI 可 以 在 Internet 中 找到 ,而且 都 由 该 染 构 的 工具 链 和 内 
核实 现 。 


标准 

Unix 系统 编程 是 一 门 古老 的 艺术 。Unix 编程 的 基础 已 经 十 几 年 未 变动 过 。 然而 Unix 系 
统 却 是 静 不 下 来 的 野兽 ,不 仅 行 为 有 所 变动 ,而且 加 入 了 新 的 功能 。 为 了 从 浴 乱 中 理 出 
头绪 , 标准 组 织 遂 将 这 些 系统 接 口 编纂 成 正式 的 标准 。 尽 管 有 众多 这 样 的 标 人 难 存 在 ,但 
是 从 技术 上 来 说 ，Linux 并 未 正式 遵守 其 中 任何 标准 。Linux 将 目标 搞定 于 两 个 隔 里 要 
和 最 盛行 的 标准 : POSIX 和 Single UNIX Specification (SUS)， 


除了 其 他 项 目 , POSIX 和 SUS 描述 了 Unix-like 操作 系统 接口 的 C API. 事实 上 , 它们 
针对 Unix 系统 的 兼容 性 定义 出 了 系统 编程 的 方法， 或 者 至 少 是 它 的 一 个 共同 子 集 。 


POSIX 和 SUS 的 历史 


20 世纪 80 年 代 中 期 ， 电 气 及 电子 工程 师 学 会 (Institute of Electrical and Electronics 
Engineers， 常 简写 成 IEEE) 率先 致力 于 Unix 系统 上 系统 层 接口 的 标准 化 。 自 由 软件 
活动 的 开山 鼻祖 Richard Stallman 提议 将 此 标准 命名 为 POSIX ( 念 成 pahz-icks), 这 就 
是 现在 的 可 移植 操作 系统 接口 (Portaple Operating System Interface) 标准 。 


这 项 努力 的 第 一 个 成 果 发 表 于 1988 年 , 也 就 是 IEEE Std 1003.1-1988 (POSIX 1988) 。 
1990 年 , IEEE 将 POSIX 标准 修订 为 IEEE Std 1003.1-1990 (POSIX 1990) 。 可 选用 的 
实时 和 线程 支持 分 别 被 定义 于 IEEE Std 1003.1b-1993 (POSIX 1993 或 POSIX.1b) 和 
IEEE Std 1003.1c-1995 (POSIX 1995 或 POSIX.1c) 中 。2001 年 ， 这 两 个 可 选用 的 标 
准 连 同 基 础 标准 POSIX 1990 被 合并 成 单一 标准 :IEEE Std 1003.1-2001(POSIX 2001)。 
最 后 一 次 修订 发 表 于 2004 年 4 月 ,也 就 是 IEEE Std 1003.1-2004, 以 上 这 些 POSIX 标 
准 被 简称 为 POSIX.1， 并 以 2004 年 的 修订 版 作为 最 新 版 本 。 
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20 世纪 80 年 代 末期 到 90 年 代 初期 ，Unix 系统 厂商 卷 入 了 一 场 “Unix 大 战 ”， 每 个 广 
商都 努力 想 让 自己 的 Unix 变 体 成 为 Unix 操作 系统 的 标准 。 儿 个 主要 的 Unix 厂商 成 也 
了 The Open Group， 这 是 一 个 由 Open Software Foundation (OSF) 和 X/Open 合并 而 
成 的 产业 协会 (industry consortium) 。The Open Group 提供 了 认证 、 和 白皮书 以 及 兼容 
性 测试 。90 年 代 初 期 ，Unix 大 战 正 如 火 如 茶 地 进行 中 ，The Open Group 发 布 了 Single 
UNIX Specification ( 常 简写 成 SUS)。SUS 旋即 受到 欢迎 ， 主 要 是 由 于 它 是 免费 的 ， 
而 POSIX 标准 却 需要 花 不 少 钱 。 今 日 ，SUS 已 经 包含 了 最 新 的 POSIX 标 崔 。 


SUS 标准 的 第 一 版 发 表 于 1994 年 ， 符 合 SUSv1 标准 的 系统 可 以 慕 得 UNIX 95 标 章 。 

SUS 标准 的 第 二 版 发 表 于 1997 年 ， 符合 的 系统 可 以 获得 UNIX 98 标 章 。 第 三 版 也 就 
是 最 新 版 的 SUS 标准 (SUSv3) 发 表 于 2002 年 , 符合 的 系统 可 以 获得 UNIX 03 标 童 。 
本 书 将 通 篇 说 明 符 合 POSIX 标准 的 系统 调用 以 及 其 他 接口 。 之 所 以 只 说 明 POSIX 而 
不 说 明 SUS， 是 因为 后 者 涵盖 前 者 。 


C 语言 标准 

Dennis Ritchie 和 Brian Kernighan 的 名 车 《The C Programming Language》 (Prentice 
Hall 出 版 ) 自从 1978 年 出 版 之 后 , 多 年 来 被 视 为 非 正式 的 C 规范 说 明 书 。 这 个 版 本 用 
C 后 来 被 称 为 天 &R C。C 已 经 迅速 地 取代 了 BASIC 和 其 他 程序 二 吉成 为 微电脑 编程 的 
通用 语言 。 因 此 ， 为 了 规范 当时 这 个 颇 为 流行 的 语言 ，1983 年 ， 美 国 国家 标准 学 会 
(American National Standards Institute, 简称 ANSI) 成 六 了 一 个 委员 会 负责 开发 CC 的 
正式 版 本 ， 它 纳入 了 来 自 各 家 厂商 以 及 新 C++ 语言 的 功能 和 所 做 的 改 民 。 标 准 化 的 过 
程 是 漫长 而 辛苦 的 ,至 1989 年 总 算 完 成 了 ANSI C 标准 。1990 年 国际 标准 化 组 织 
(International Organization for Standardization, 简称 IT3O) 将 ANSIC 标准 小 修之 后 通 
过 了 18O C90 标准 。 


1995 年 , ISO 对 C 语言 进 行 改版 ， 发布 了 18O C95 (但 是 很 少 被 实现 ),。 之 后 驶 是 1999 
年 的 大 改版 ， 发 布 了 18O C99， 这 个 版 本 加 入 了 许多 新 功能 , 包括 inline 半数、 新 的 数 
据 类 型 、 可 变 长 数组 、C++ 风格 的 注释 以 及 新 的 链接 库 函 数 。 


Linux 与 这 些 标准 

如 稍 早 所 述 ,Linux 的 目标 锁定 在 POSIX 和 SUS 的 兼容 性 . 它 提 供 了 SUSv3 和 POSIX.] 
所 规范 的 接口 ， 包 括 可 选用 的 实时 〈《POSIX.lb) 和 线程 (POSIX.1lc) 支持 。 更 重要 的 
是 ，Linux 试图 提供 符合 POSIX 及 SUS 要 求 的 性 能 。 一 般 而 言 ， 与 标 维 不 符 的 地 方针 
被 视 为 缺陷 。Linux 被 认为 符合 POSIX.1 与 SUSv3 标 崔 , 但 是 它 并 未 正式 通过 POSIX 





或 SUS 的 认证 (特别 是 Linux 的 每 个 版 本 以 及 每 个 修订 版 ) ,所 以 我 不 能 正 式 地 说 Linux 
与 POSIX 或 SUS 菲 容 。 


就 程序 语言 方面 的 标准 而 吉 ，Linux 有 不 错 的 进展 。gee C 编译 器 支持 1SO C99 标准 。 
此 外 ，gec 还 提供 了 自己 对 C 语言 所 做 的 扩展 。 这 些 扩充 统称 为 GNU CC， 相关 细 帮 可 
参考 本 书 附 如。 


Linux 的 向 上 兼容 性 (forward compatibility) 历史 并 没有 发 生 什 么 重 太 的 事件 ( 注 1})， 
尽管 近来 它 有 很 不 错 的 进展 。 标 崔 所 规范 的 接口 ， 例 如 标准 C 链接 库 ， 显 然 会 巡 终 维 
持 源 码 兼 容 (source compatible)， 而 且 至 少 条 要 维持 glibe 主 要 版 本 之 问 的 二 进 浏 向 
兼容 性 (binary compatibility)。 因 为 C 已 经 标准 化 ，&ec 将 始终 有 能够 正确 编 谋 全 相间 
C 程序 ， 然 而 gece 特有 的 扩展 却 可 能 被 废弃 以 及 被 新 的 gcc 版 本 称 除 。 报 重 归 风 站 

Linux 会 确保 系统 调用 的 稳定 性 .一旦 Linux 内 核 的 稳定 履 本 实现 上 一 个 系统 调用 , 筷 
就 会 固定 下 来 不 入 变动 ，。 


在 众多 Linux 发 行 生 中 ,Linux Srandard Base (简称 LSB) 对 大 部 分 的 Linux 系统 进行 
了 标准 化 。LSB 是 在 Linux Foundarion (之 前 的 Free Standards Group) 呆 链 助 工 下 出 
若干 Linux 三 和 障 所 参与 的 联 全 计划， 日 的 是 提供 一 个 二 进 制 码 标 维 ， 让 和 革 标 码 不 必 竹 
改 就 能 够 在 兼容 的 系统 上 运行 。 多 数 Linux 三 商都 会 提供 某 种 称 度 的 LSB 菲 容 性 。 


本 书 与 这 些 标准 

本 书 刻 意 避 免 对 任何 标准 提供 任何 口 惠 而 实 不 至 的 服务 。 一 般 的 Unix 系统 编程 书 格 必 
定 会 停 下 来 详细 说 明 某 个 接口 在 各 标准 中 的 行为 有 何 差异 , 某 个 系统 调用 在 各 个 标准 中 
是 否 被 实现 ， 并 以 类 伺 的 页 面 填充 膨胀 的 内 容 。 然 而 ， 本 书 只 会 针对 现代 Linux 系统 
一 一 包括 最 新 版 的 Linux 内 核 (2.6)、gcc C 编 详 右 (4.2) 以 及 CC 链接 库 (2.5)， 来 
探讨 系统 编程 。 


系统 接口 会 普遍 固定 下 来 一 一 例如 Linux 系统 开发 者 会 太 费 周 茧 地 玉兔 破坏 这 些 系 
统 调用 接口 ,而且 会 提供 荣 种 程度 的 源码 和 一 进 制 码 的 招 容 性 。 此 做 法 可 以 让 我 们 守 
入 Linux 系统 接口 的 细 市 ， 而 不 用 去 关心 其 与 各 种 其 他 Unix 系统 和 标准 的 状 窑 性 ，。 
这 种 将 焦点 放 在 Linux 上 的 做 法 让 本 书 得 以 深入 探讨 Linux 特有 的 先进 接 上 日 ， 也 使 
得 读者 可 以 和 未 来 接轨 。 本 书 利 用 Linux 了 最 内 部 鸭 知 识 , 龙 其 征 8ec 与 肉 核 等 组件 的 
实现 和 性 能 ， 提 供 了 知情 人 人 士 的 看 法 ， 而 且 随 处 可 见 老 手 的 最 佳 做 法 以 及 优化 记 完 。 





证 1: 有 经 验 的 Linux 用 户 可 能 还 记得 从 qa.out 切换 至 ELF、 从 1ipc5 切换 至 glibe. sce 的 变 
草 等 。 还 好 ， 这 些 日 于 都 已 经 过 去 了 ， 
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Linux 编程 的 概念 

a 将 对 Linux 系统 所 提供 的 服务 做 一 个 简明 的 概述 。 所 有 的 Unix 系统 , 包括 Linux， 
会 提供 一 组 共同 的 抽象 概念 以 及 接口 。 的 确 , 这 种 通用 性 定义 了 Unix。 文件 和 进程 、 用 

于 管理 pipe 和 socket 的 接口 等 抽象 概念 就 是 Unix 的 基础 组 件 。 


本 节 假 设 你 已 经 熟悉 Linux 的 操作 环境 : 你 可 以 在 shell 中 游 走 、 使 用 基本 有 的 命令 以 及 
编译 简单 的 C 程序 。 本 节 的 内 容 并 非 Linux 或 其 编程 坏 境 的 概述 ， 而 是 Linux 系统 编 
程 的 基本 知识 。 


文件 以 及 文件 系统 


文件 是 Linux 中 最 基本 且 最 重 归 的 抽象 概念 。Linux 遵 笠 了 “一 切 峭 文件 ”的 哲学 《 尽 
管 做 得 不 如 其 他 系统 , 例如 Plan9 ( 注 2)。 因 此 , 许多 操作 是 通过 对 文件 的 读 写 进行 的 ， 
即使 所 操作 的 对 象 并 非 你 平日 所 使 用 的 文件 。 


文件 必须 先 被 打开 才 可 以 被 访问 。 文 件 可 以 被 打开 以 备 读 取 、 写 人 或 是 读 写 。 你 可 以 通 
过 一 个 独一无二 的 描述 符 (descriptor) 来 引用 一 个 已 打开 的 文件 , 此 描述 符 让 我 们 可 以 
从 与 已 打开 文件 相关 的 元 数据 映射 回 相 应 文件 。 Linux 内 核 内 部 ， 此 描述 符 的 操作 
sd (file descriptor， 简称 f4) 的 整数 (这 是 CC 的 int 数据 类 

) 来 进行 。 由 用 户 空 间 程 序 所 共享 ,而 用 户 空间 程序 可 以 直接 使 用 fd 来 访问 文件 。 
Linux 系统 编程 多 半 就 是 以 fd 来 进行 文件 的 打开 、 操 纵 、 关 闭 以 及 其 他 工作 ， 


常规 文件 


= pe Linux 所 称 的 常规 文件 (regular file)。 常 规 文件 内 含 数据 的 字 

昌 被 组 织 成 一 个 称 为 字 节 流 (byte stream) 的 线性 数组 (linear array)。 在 Linux 
上 . 不 会 丽 为 文件 指定 任何 格式 。 这 些 字 节 可 以 具有 任何 值 ， 而 且 可 以 通过 任何 方式 被 
es. 从 系统 层 来 看 , 除了 字 市 流 之 外 ，Linux 不 会 再 对 文件 这 土 任何 结构 。 有 
些 操作 系统 ， 例 如 YMS， 会 提供 高 度 结构 化 的 文件 来 支持 像 记 录 (record) 这 样 的 概 
念 。Linux 则 不 会 这 么 做 。 


你 可 以 对 一 个 文件 内 的 任何 字 节 进行 读 或 写 的 操作 。 这 些 操作 始 于 一 个 特定 的 字 节 , 在 
文件 中 这 十 一 个 概念 上 的 位 置 (location)。 此 位 置 又 称 为 文件 位 置 (file position) 或 文 


OO 


六 2， Plang 是 一 个 诞生 自 Bell Labs 的 撞 作 系统 ,， 它 常 被 称 为 Unix 的 后 急 者 , 它 展 现 了 车 干 
创新 的 概念 ， 而 且 也 是 “一 切 辟 文件 ”哲学 的 拥护 者 。 
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件 偏 移 量 (file offser)。 EA 已 打开 文件 的 元 数据 的 基本 要 素 。 当 一 个 
文件 首次 被 打开 ,文件 位 置 是 零 。 通常 ， 当 文件 中 的 字 节 被 读 或 写 时 , 会 逐 字 市 地 递增 
文件 位 置 。 Wee 即使 此 值 超过 了 文件 末尾 的 位 置 。 帮 直接 
写 人 -- 个 字 节 到 文件 末尾 之 后 的 位 置 , 则 会 使 得 中 间 的 字 节 被 填补 上 零 。 尽 管 有 可 能 以 
此 方式 将 字 节 写 到 文件 ey 但 是 却 不 可 能 将 字 节 写 到 文件 开头 之 前 的 位 置 。 
因为 这 种 做 法 听 起 来 很 可 笑 ， 而 且 的 确 没有 什么 用 处 。 文 件 位 置 从 零 起 算 ， 而 且 不 可 以 
是 负 值 。 将 一 个 字 刷 写 进 . -个 文件 的 中 间 位 图, 会 覆盖 之 前 位 于 该 仿 移 量 的 字 刷 。 因 此 ， 
将 字 节 写 入 文件 的 中 间 位 置 是 不 可 能 扩大 文件 的 。 多 数 的 文件 写 人 操作 发 生 在 文件 末尾 
处 。 文 件 位 置 的 最 大 值 受 限于 用 来 储存 它 的 C 数据 类 型 的 大 小 ， 就 现代 的 Linux 而 言 
此 大 小 为 64 位 。 


-个 文件 的 大 小 以 字 节 为 度量 单位 ， 这 又 被 称 为 文件 的 长 度 (leng1h)。 换言之 , 长 度 就 
ne 你 可 经 一 个 称 为 iruncation ( 截 短 ) 的 操作 来 变 

一 个 文件 的 长 度 . - -个 文件 可 以 被 截 短 成 比 原来 尺寸 还 短 的 新 尺寸 , 这 是 有 字 市 从 文 
a 中 。 en 此 操作 本 身 的 名 称 , 一 个 文件 竟然 还 可 以 “被 截 短 ” 
(truncated) 成 比 原来 尺寸 还 长 的 新 尺寸 。 在 此 状况 下 , 新 的 字 节 (附加 在 文件 末尾 ) 会 
被 坛 人 零 。 一 个 文件 可 能 是 空 的 长度 为 零 ) ， 因 此 未 包含 任何 有 效 的 字 有 。 文 件 长 度 
的 最 大 值 ， 如 同文 件 位 置 的 最 大 值 ， 仅 受 限 于 Linux 内 核 用 来 管理 文件 的 C 数据 类 型 
的 大 小 。 然 而 , 有些 文件 系统 可 能 会 强行 加 上 自己 的 限制 , 所 以 长 度 的 最 大 值 可 能 会 再 
小 一 操 。 


一 个 文件 可 以 被 不 同 的 进程 甚至 是 相同 的 进程 多 次 打开 ,每 一 个 被 打开 的 文件 实体 都 会 
被 赋予 一 个 独一无二 的 fd， 进程 之 间 可 以 共享 它们 的 J4， 这 引 单 一 描述 符 可 以 供 一 个 
以 上 的 进程 使 用 。 内 核 并 不 会 对 同时 进行 的 文件 访问 强加 任何 限制 。 可 以 有 多 个 进程 同 
时 自由 读 写 相同 的 文件 。 此 类 同时 访问 的 结 ee 别 操作 的 先后 顺序 , 通常 难以 预 
期 。 用 户 空间 程序 通常 需要 居间 协调 这 些 进程 , 确保 这 些 同 时 进行 的 文件 访问 可 以 达到 
同步 。 


尽管 文件 的 访问 通常 是 通过 文件 名 称 (filename) ,但 古文 件 与 此 类 ee 
联 性 。 上 ， 文 件 的 引用 是 通过 inode (information node， 信 息 节 点 )， 它 会 被 虐 于 
一 个 独一无二 的 数值 。 此 值 又 称 为 inode numper (信息 节点 编号 )， 通 党 Se 简写 成 并 
numper ino。inode 用 米 储存 与 某 个 文件 有 关 的 元 数据 ,例如 文件 的 时 间 惟 .拥有 
者 、 类 型 、 长 度 以 及 文件 内 容 的 摆 放 位 置 一 一 然而 就 是 没有 文件 名 ! inode 既是 一 个 
实际 的 对 象 (被 放 在 磁盘 上 上 有 Unix 风格 的 文件 系统 中 小 也 是 一 个 概念 性 实体 (由 Linux 
内 核 中 的 一 个 数据 结构 米 表 示 )。 
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目录 与 链接 

通过 文件 的 i-number 来 访问 文件 很 麻烦 {而 且 上 有 具有 潜在 的 安全 漏洞 ), 所 以 用 户 空 间 程 
序 通 常会 使 用 名 称 {而 不 会 使 用 i-number) 来 打开 文件 。 目 录 (directory) 可 用 来 提供 
访问 文件 时 所 使 用 的 名 称 。 目录 的 功能 就 是 把 人 类 可 阅读 的 名 称 映 射 至 i-number。 将 名 
称 和 inode 配 成 对 就 称 为 链接 (Link)。 此 映射 美 系 一 一 一 个 简单 的 表格 、 哈 希 表 或 其 
他 数据 结构 一 一 在 磁盘 上 的 实际 形式 是 由 支持 指定 文件 系统 的 内 棱 程 序 代码 来 实现 和 
管理 的 。 因 此 ， 目 录 看 起 来 就 像 一 般 文 件 , 不同 之 处 在 于 目录 中 只 包含 名 称 与 inode 之 
间 的 映射 关系 。 内 核 会 直接 使 用 此 映射 关系 进行 “名 称 至 inode 的 解析 工作 。 


当 一 个 用 户 空 间 应 用 程序 要 求 打 开 指 定 的 文件 名 称 时 ,内核 会 打开 包 作 文件 名 称 的 目 永 
并 且 搜 索 指 定 的 名 称 。 内 核 可 以 从 文件 名 称 找到 i-number， 再 从 i-number 找到 inode 。 
而 inode 中 则 包含 与 相应 文件 有 关 的 元 数据 ， 例 如 相应 文件 的 数据 在 磁盘 上 的 位 置 。 


起 初 ， 磁 盘 上 只 会 有 一 个 目录 ， 也 就 是 根 目录 (roof directory)。 此 目录 通常 会 被 标记 
成 “/” 路 径 。 但 是 大 家 都 知道 , 一 个 系统 上 通常 会 出 现 许多 和 目录。 内核 如 何 知 道 自己 所 
要 找 的 文件 名 称 位 于 哪个 目 敢 ? 


如 稍 早 所 述 ， 目 录 看 起 来 非常 像 瘦 规 文件 。 的 确 ， 它 们 其 至 会 被 配 发 inode。 因 此 ， 有 目 
录 里 的 链接 可 以 只 指向 其 他 目录 的 inode。 这 意味 着 ， 目 录 可 以 伦 套 在 其 他 目录 之 中 形 
成 目录 的 层次 结构 。 这 让 所 有 的 Unix 用 户 可 以 使 用 路 径 名 称 (Parpnarme) 来 指称 文件 
— 例如 Ahome/blackbeard/landscaping.txt. 


当 内 核 被 要 求 打开 这 样 的 路 径 名 称 时 ， 它 会 走 过 路 径 名 称 中 每 个 目录 项 (directory 
entry， 内 核 内 部 称 之 为 dentry) 以 便 寻 找 下 一 项 的 inode。 在 前 面 的 例子 中 ， 内 核 会 从 
“开始 ， 先 取得 home 的 inode， 从 那里 取得 blackbeard 的 inode， 和 再 取得 
landscaping.txt 的 inode。 此 操作 称 为 日 录 或 路 径 名 称 的 解析 。Linux 内 棱 还 会 使 用 一 
个 缓存 区 , 称 为 dentry cache, 来 储存 目录 解析 的 结果 , 以便 以 后 能 赫 temporal locality 
现象 提供 快捷 的 解析 ( 注 3)。 


一 个 以 根 目 录 起 头 的 路 径 名 称 被 称 为 完全 限定 路 径 名 称 (fully qualified pathname) 或 
绝对 路 算 名 称 (absolute pathnamej。 有 些 路 径 名 称 并 非 完 全 限定 的 : 相反 ， 它 们 是 相 
对 于 其 他 目录 的 《例如 todo/plunder)。 这些 路 径 名 称 被 称 为 相对 路 径 名 称 (relative 
pathname )。 当 所 提供 的 是 相对 路 径 名 称 上 时， 内 核 会 从 当前 工作 目录 (current working 
directory) 开始 进行 路 径 名 称 的 解析 工作 . 内核 可 以 从 当前 工作 目录 查找 todo 目录 , 从 
那里 开始 ， 内 核 可 以 取得 plunder 的 inode。 


汪 3: temporal locality (时 间 定 域 性 ) 是 指 特定 资源 被 访问 后 ,在 某 段 时 间 内 再 被 访问 的 概率 
很 高 。 计 算 机 中 有 许多 资源 会 呈现 temporal locality 现象 。 
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尽管 自 录 看 起 来 像 普通 文件 ， 但 是 内 核 并 不 允许 你 像 对 当 规 文件 那样 打开 并 操纵 它们 。 
事实 上 , 它们 的 操纵 必须 通过 一 组 特别 的 系统 调用 。 这 组 系统 调用 让 你 可 以 新 增 和 移 除 
链接 ,总 之 只 有 这 两 项 操作 是 你 可 以 感觉 到 的 。 如果 用 户 空 间 程序 不 经 过 内 核 束 可 以 直 
接 操纵 目录 ， 那 么 很 容易 会 因为 一 个 简单 的 错误 就 毁坏 文件 系统 。 


硬 链 接 

就 概念 而 言 , 目前 并 不 存在 任何 机 制 可 以 避免 多 个 名 称 被 解析 成 同一 个 inode。 的确, 这 
是 人 允许 的 。 当 多 个 链接 将 不 同 的 名 称 映 射 至 同一 个 inode 时 , 我 们 称 这 些 链 接 为 硬 链接 
(hard link). 


硬 链 接 让 复杂 的 文件 系统 结构 可 以 拥有 多 个 指 回 相 同 数 据 的 路 径 名 称 。 硬 链接 可 以 位 十 
相同 的 目录 中 ,或 者 位 于 两 个 或 多 个 不 同 的 目录 中 。 在 这 两 种 状况 下 ,内 核 都 会 将 路 径 
名 称 解析 成 正确 的 inode。 例 如 ，AhomeApiaepeardAmap ixrf 和 /home/blackbeard/ 
treasure.txt 可 以 硬 链 接 至 其 个 指 同 特定 数据 块 的 inode 。 


删除 一 个 文件 包括 了 将 它 的 链接 从 目录 结构 中 移 除 ， 方 法 很 简单 ， 只 要 将 它 的 名 称 和 
inode 的 映射 关系 从 目录 中 移 除 即 可 , 这 又 称 为 unlink 操作 。 然 而 ,因为 Linux 支持 硬 
链接 ， 所 以 在 每 次 unlink 操作 之 后 ， 文 件 系统 不 会 马上 破坏 inode 与 它 的 相关 数据 。 
i 在 所 有 链接 被 移 除 之 前 ,为 了 确保 文件 不 会 
遭 到 破坏 ， 每 个 inode 都 会 包含 一 个 “链接 计数 ”(link coun1) 字段 来 记录 文件 系统 中 
有 多 少 链接 指向 它 。 Wi 链接 计数 就 会 被 递减 1， 只 有 当 它 
变 为 0 时 ，inode 与 它 的 相关 数据 才 会 从 文件 系统 中 被 实际 移 除 。 


符号 链接 

硬 链 接 无 法 跨越 文件 系统 ， 因 为 inode number 如 来 位 于 inode 所 隶属 的 文件 系统 之 外 
便 晕 无 意 人 多。 为 了 让 链接 可 以 路 越 文件 系统 ，UnIX 系统 还 实现 了 符号 链接 (sympbolic 
link， 第 简写 成 symlink)，。 


symlink 看 起 来 像 和 常规 文件 。symlink 具有 目 己 的 inode [以 及 数据 块 (其 中 包含 了 链接 
至 文件 的 完整 路 径 名 称 )。 这 意味 着 symlink 可 以 指向 任何 地 方 ， 包 括 不 同文 件 系统 上 
的 文件 和 目录 , 甚至 是 尚 不 存在 的 文件 和 目录。symlink 若 指 向 尚 不 存在 的 文件 称 为 “不 
完整 的 链接 ” (broken link)。 


相 较 十 硬 链接 ，symlink 会 招致 更 多 的 开 富 ， 因 为 symlink 的 解析 包括 了 两 个 文件 《〈 符 
号 链接 本 身 以 及 所 链接 的 文件 ) 的 解析 。 硬 链接 不 会 招致 额外 的 开销 一 一 多 次 访问 链接 
至 文件 系统 的 某 个 文件 并 没有 什么 差别 ， 一 次 只 解析 一 个 链接 。symlink 的 开销 其 实 很 
小 ， 但 是 仍然 会 被 视 为 一 项 缺点 。 
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symlink 透明 的 程度 不 如 硬 链 接 。 硬 链接 的 使 用 完全 透明 (译注 3); 事实 上 ， 它 需要 努 
力 找 出 一 个 被 链接 一 次 以 上 的 文件 ! 另 一 方面 ，symlink 却 需要 使 用 特殊 的 系统 调用 。 
symlink 缺乏 延明 度 第 被 视 为 一 项 优点 ， 相 较 于 文件 系统 内 部 的 链接 ，symlink 的 行为 
比较 像 快捷 方式 (shiorrecnt)，。 


特殊 文件 

竹 殊 丸 件 就 是 被 表示 成 文件 的 内 核对 象 。 多 年 来 ，Unix 支持 若干 种 特殊 文件 。Linux 支 
持 四 种 : 块 设备 文件 . 字符 设备 文件 . 命名 管道 (named pipe) 以 及 Unix domain socket。 
特殊 文件 是 一 种 让 特定 的 抽象 概念 可 以 融入 文件 系统 的 方法 , 符合 “一 切 皆 文件 ”的 设 
计 原 则 。Linux 为 创建 特殊 文件 提供 了 一 个 系统 调用 。 


在 Unix 系统 中 ， 设 备 的 访问 是 通过 设备 文件 ， 它 的 行为 和 样子 看 起 来 就 像 放 在 文件 系 
统 中 的 一 般 文件 。 设备 文件 可 以 被 打开 来 进行 读 和 写 , 这 让 用 户 空 间 程序 可 以 在 系统 上 
访问 和 操纵 (实体 或 虚拟 ) 设备 。Unix 设 备 通常 分 成 两 娄 : 字符 设备 (character device) 
以 及 块 设备 (block device)。 每 一 种 设备 类 型 都 拥有 自己 专属 的 设备 文件 。 


宇和 什 设 备 可 被 当成 线性 字 市 队列 来 访问 。 设 备 驱 动 程序 会 把 字 刷 一 个 接着 一 个 地 放 入 队 
列 (queue), 而 用 户 空 间 程序 则 会 按照 字 节 被 放 入 队列 的 顺序 来 读 取 它们 。 键盘 就 是 字 
和 任 设 备 的 一 个 实例 。 举 例 来 说 ， 如 果 用 户 键入 “peg”， 则 应 用 程序 就 会 从 键盘 设备 上 依 
次 读 到 p,e 和 8 等 字符 。 当 不 再 有 任何 字符 可 供 读 取 时 ,设备 会 返回 end-of-file (EOF) 
字符 。 如 末 遗 漏 了 一 个 字符 或 以 任何 其 他 顺序 来 读 取 它 们 ,都 将 没有 多 大 的 意义 。 字 符 
芝 备 的 访问 可 通过 字符 设备 文件 来 进行 。 


相对 而 言 , 块 设备 可 被 当成 字 节 数组 来 访问 .设备 驱动 程序 会 映射 可 搜索 设备 (seekable 
device) 上 的 字 节 , 而 且 用 户 空间 程序 可 以 以 任何 顺序 自由 访问 数组 中 任何 有 效 的 字 节 
一 一 它 可 以 读 取 字 节 12， 然 后 读 取 字 节 7， 接 着 再 读 取 字 节 12。 块 设备 通常 就 是 存储 
设备 。 硬 盘 、 软 盘 、 光 驱 以 及 闪存 等 全 都 是 块 设备 ， 它 们 都 通过 块 设备 文件 被 访问 。 


命名 导管 (named pipe， 通 常 称 为 FIFO， 也 就 是 “先进 先 出 ”的 意思 ) 是 一 种 进程 间 
通信 (interprocess communication ,人 简称 IPC) 机 制 ， 它 通过 文件 描述 符 提 供 了 一 个 通 
信 管 道 , 你 可 以 通过 一 个 特殊 文件 来 访问 它 。 正 规 管道 (regular pipe) 是 指 将 一 个 程序 
的 输出 “用 管道 传输 至 ”(pipe to) 另 一 个 程序 的 输入 的 方法 ， 它 们 是 由 系统 调用 在 内 
人 存 中 创建 的 ， 所 以 不 会 存在 于 任何 文件 系统 中 。 命名 管道 的 行为 很 像 正规 管道 , 但 是 它 
的 访问 是 经 一 个 称 为 FIFO 的 特殊 文件 来 进行 的 ,无 甘 的 进程 可 通过 访 间 该 文件 来 与 命 
名 省 道 通信 ，。 


伴 注 3: 筷 仿 佛 不 疗 在 。 
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socket 是 特殊 文件 的 最 后 一 种 类 型 ， 它 是 IPC 的 一 种 高 级 形式 ， 让 不 同 的 进程 得 以 彼 
此 通信 ， 这 些 彼 此 通信 的 进程 不 仅 可 以 位 于 相同 的 机 器 上 ， 也 可 以 位 于 不 同 的 机 器 上 。 
事实 上 ，socket 的 通信 形式 是 网 络 和 Internet 程序 设计 的 基础 。socket 有 多 种 变化 形 
式 ， 其 中 包括 Unix domain socket， 这 是 socket 用 于 机 器 内 部 通信 的 一 种 形式 。 尽 管 
socket 通过 Internet 通信 时 需要 使 用 主机 名 称 和 端口 号 来 识别 通信 的 目标 ， 但 Unix 
domain socket 却 是 使 用 文件 系统 中 的 一 个 特殊 文件 来 进行 通信 ， 通 常 这 个 特殊 文件 就 
称 为 socket 文件 。 


文件 系统 与 命名 空间 

如 同 所 有 的 Unix 系统 一 样 ，Linux 为 文件 和 目录 提供 了 一 个 全 局 和 统一 的 命名 空间 
(namespace)。 有 些 操作 系统 将 磁盘 和 磁盘 蝶 动 器 分 成 两 个 不 同 的 命名 空间 一 一 例如， 
一 个 位 于 软盘 上 的 文件 可 能 要 经 路 径 名 称 4A:\plank.jpg 来 访问 ， 然 而 硬盘 则 位 于 Cn\。 
在 Unix 中 ， 同 一 个 位 于 软盘 上 的 文件 可 能 要 通过 路 径 名 称 /media/floppy/plank.jpg8 来 
访问 , 或 通过 home/captain/stuff/plank.jpg 来 访问 , 不 论文 件 来 自 哪个 媒体 。 世 就 是 说 ， 
在 Unix 上 ， 命 名 空间 是 统一 的 。 


一 个 文件 系统 (jfilesystem) 就 是 在 正式 和 有 效 的 层次 中 一 群 文件 和 目录 所 构成 的 集合 。 
文件 系统 可 被 单独 地 加 入 文件 和 目录 的 全 局 命名 空间 或 是 从 全 局 命名 空间 移 除 ,这 两 现 
操作 称 为 挂 载 {mounting ) 和 印 载 (unmounting )。 每 个 文件 系统 可 以 被 挂 载 到 命名 宇 
间 中 某 个 位 置 上 ， 这 就 是 所 谓 的 桂 载 点 (mount point)。 然 后 文件 系统 的 根 目 录 可 通过 
此 挂 载 点 被 访问 。 举 例 来 说 ， 一片 CD 可 以 被 挂 载 到 /media/cdrom， 这 让 CD 上 的 文 
件 系统 根 目录 可 以 通过 该 挂 载 点 被 访 回 ,第 一 个 文件 系统 会 被 挂 载 到 命名 空间 的 root 市 
点 ， 也 就 是 “/”， 这 被 称 为 根 文 件 系 统 (roor filesystem) 。Linux 系统 通常 会 且 有 一 个 
根 文件 系统 。 革 他 的 文件 系统 则 可 被 自由 挂 载 到 其 他 挂 载 点 。 


文件 系统 通常 物理 存在 着 (也 就 是 被 存储 在 磁盘 上 )， 尽 管 Linux 也 支持 仅 存 在 于 内 存 
中 的 虚拟 文件 系统 virtual filesystem) 以 及 跨越 网 络 存在 于 远程 机 器 上 的 网 络 文件 系 
统 (network filesystem)。 物 理 文件 系统 位 于 块 存储 设备 上 ， 例 如 光盘 、 软 盘 、 小 型 内 
存 卡 (compact flash card) 或 硬盘 。 此 类 设备 有 些 是 可 分 割 的 ， 也 就 是 可 以 划分 成 多 
个 文件 系统 ， 这 些 文件 系统 每 个 都 可 被 独立 操纵 。Linux 支持 广泛 的 文件 系统 一 一 当 
然 一 般 用 户 有 了 时 会 希望 用 到 任何 文件 系统 ， 包 括 媒 体 特有 的 文件 系统 (例如 ISO9660)、 网 
络 文件 系统 (NFS) 、 原 生 文件 系统 (ext3)、 来 自 其 他 Unix 系统 的 文件 系统 (XF5)， 
甚至 是 来 自 非 Unix 系统 的 文件 系统 (FAT)。 


块 设备 上 最 小 的 可 寻 址 单元 就 是 矶 区 (secror) 。 届 区 是 设备 的 物理 特性 。 忆 区 的 大 小 通 
前 是 2 的 幕 次 方 , 512 B 是 相当 常见 的 尺寸 。 块 设备 无 法 移动 或 访问 尺寸 小 于 一 个 户 区 
的 数据 单元 ， 所 有 的 TO 都 是 以 一 个 或 多 个 忆 区 来 进行 的 。 
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同样 地 , 块 (piock) 是 文件 系统 上 最 小 的 逻辑 可 寻 址 单元 。 块 是 文件 系统 的 一 个 抽象 概 
念 ， 文 件 系统 上 并 不 存在 这 样 的 物理 媒体 。 块 的 大 小 通常 是 2 的 需 次 方 ， 而 且 是 局 区 
大 小 的 倍数 。 块 一 般 都 大 于 岛 区 ， 但 是 必须 小 于 页 面 尺 寸 ( 注 4) (内 存 管 理 单元 一 一 
这 是 一 个 硬件 组 件 ， 所 能 寻 址 的 最 小 单位 )。 常 见 的 块 大 小 有 512B、1 KB 以 及 4KB。 


以 往 ，Unix 系统 仅 使 用 一 个 共享 的 命名 空间 ， 系 统 上 所 有 用 户 以 及 所 有 进程 都 可 匈 。 
Linux 采用 新 的 做 法 并 且 支 持 每 个 进程 的 命名 空间 (per-process namespaces)， 这 让 每 
个 进程 可 以 针对 系统 的 文件 和 目录 层次 选择 自己 的 视图 ( 注 5)。 默认 情况 下 , 每 个 进程 
将 继承 其 父 进程 的 命名 空间 ,但 是 进程 可 以 使 用 自己 所 拥有 的 一 组 挂 载 点 以 及 唯一 的 根 
目录 来 创建 自己 的 命名 空间 。 


进程 

如 果 说 文件 是 Unix 系统 中 最 基本 的 抽象 概念 ， 那 么 进程 就 是 第 二 基本 的 抽象 概念 。 进 
程 (process) 是 执行 中 的 目标 码 (object code) : 正在 运行 的 程序 。 但 是 它 不 仅仅 是 目 
标 码 ， 进 程 由 数据 、 资 源 、 状 态 以 及 一 个 虚拟 的 计算 机 组 成 。 


进程 的 生命 始 于 可 执行 目标 码 (executable object code) ， 这 是 采用 内 核 所 了 解 的 可 执 
行 格 式 (Linux 中 最 常见 的 格式 为 ELF) 的 机 器 可 运行 代码 (machine-runnable code ) 。 
可 执行 格式 包括 元 数据 (metadata) 以 及 多 个 代码 和 数据 段 (sections of code and data ) 。 
这 些 段 是 会 被 加 载 至 内 存 的 线性 块 的 目标 码 的 线性 块 (linear chunk)。 区 段 中 所 有 数据 
的 待遇 都 一 样 ， 它 们 具有 相同 的 访问 权限 ， 而 且 一 般 用 于 相似 的 用 途 。 


最 重要 和 最 常用 的 段 是 text 段 .、 data 段 以 及 bss 段 。text 段 中 包含 可 执行 代码 以 及 只 读 
数据 (例如 常 变量 )， 而且 通常 会 被 标示 成 只 读 及 可 执行 。data 段 中 包含 已 初始 化 的 数 
据 (例如 定义 过 初始 值 的 C 变量 ),， 而 且 通 常会 被 标示 成 可 擦 写 。bss 有 段 中 包含 尚未 初 
始 化 的 全 局 数据 。 因 为 C 标准 规定 C 变量 的 默认 值 茜 本 上 都 为 零 ， 所 以 不 需要 将 零 存 
和 磁盘 上 的 目标 码 。 事 实 上 ， 目 标 码 只 会 在 bss 段 中 列 出 未 初始 化 的 变量 ， 当 该 段 加 载 
进 内 存 时 ， 内核 会 为 此 段 映 射 zero page (一 个 填 满 零 的 页 面 )。 一般 认为 bss 段 就 是 基 
于 此 目的 的 优化 手段 。bbs 的 名 称 是 一 个 历史 遗迹 ， 代表 block started by symbol 或 
block storage segment。ELF 可 执行 文件 中 常用 的 其 他 段 还 有 absolute 段 (内 含 不 可 重 
定位 的 符号 ) 以 及 undefined 段 (内 含 所 有 未 定义 的 符号 )。 


进程 还 会 涉及 由 内 楼 仲裁 和 管理 的 各 种 系统 资源 ,进程 通常 只 会 通过 系统 调用 来 请 求 和 
操纵 资源 (包括 定时 器 、 未 决 信和 号、 已 打开 的 交 件 。 网 结 连 接 、 硬 件 以 及 IPC 机 制 )。 
注 4: 这 是 一 个 人 为 的 内 核 限制 ,将 素 可 能 会 有 所 改动 。 
注 $，Bell Labs 的 Plan9 是 首先 采用 此 做 法 的 操作 系统 。 
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在 内 核 内 部 ,一 个 进程 所 配 得 的 资源 会 随 着 进程 的 相关 数据 及 统计 值 一 问 被 存 入 进程 的 
进程 描述 特 (process deseriptor)。 


进程 是 一 个 虚拟 的 抽象 对 象 .Linux 内 核 支 持 抢占 式 多 任务 处 理 (preemptive multitasking) 
以 及 虚拟 肉 存 (virtual memory), 放 为 进程 提供 霹 拟 化 的 处 理 器 以 及 内 存 的 谍 拟 化 民 图 。 
从 进程 的 角度 来 看 , 仿佛 它 独自 控制 整个 系统 。 也 就 是 说 , 尽管 该 进程 可 能 与 许多 其 他 
进程 一 同 参 与 调度 , 但 在 和 运行 的 暑 候 好 像 是 它 独 自 掌控 整个 系统 一 样 。 事 实 上 ,内核 会 
丘 间 陆 且 透明 地 抢占 和 重新 调度 进程 (preempts and reschedules processesj， 与 止 在 运 
行 的 所 有 进程 共享 系统 的 处 理 器 。 进 程 绝 不 会 察觉 有 何 剧 尾 。 同样 地 ， 每 个 进程 会 被 分 
配 单一 的 线性 地 址 空间 ， 仿 佛 它 独 自控 制 系统 中 所 有 内 存 。 通 过 虚拟 内 存 和 页 面 调度 
(paging) 机 制 , 内 核 元 许多 个 进程 并 存 十 系统 中 , 让 每 个 进程 各 和 白 返 作 在 不 同 的 地 址 罕 
间 中 。 内 核 通 过 现代 处 理 器 所 提供 的 硬件 支持 来 管理 此 虚拟 化 功能 , 让 操作 系统 得 以 同 
时 管理 多 个 无 关 进 程 的 状态 。 


线程 

每 个 进程 由 一 个 或 多 个 执行 的 线程 (1hreads of execurtion、 通 党 只 简写 为 threads) 所 
构成 。 线程 就 是 进程 内 最 小 的 执行 单位 , 该 抽象 对 象 负责 执行 程序 代码 以 及 维护 进程 的 
运行 状态 。 

多 数 进程 仅 由 单一 线程 构成 它们 波 称 为 单线 程 (single-threaded) ,而 那些 包含 多 个 线程 
的 进程 被 称 为 多 线程 (maltithreaded) 。 传 统 上 ，Unix 程序 都 是 单线 程 的 ,这 征 因 为 Unix 
历来 着 重 简单 、 快 速 的 进程 创建 时 间 以 及 稳固 的 IPC 机 制 , 这些 都 会 降低 对 线程 的 需求 。 


基 程 由 堆栈 (siack， 用 来 存放 它 的 局 部 变量 ， 如 同 无 线程 系统 上 的 进程 堆栈 )}、 处 理 吕 

pe 态 以 及 目标 码 中 的 当前 位 置 (通常 存放 在 处 理 器 的 指令 指针 中 ) 组 成 。 进 程 的 其 余 
部 分 多 半 由 所 有 线程 所 共享 。 
就 内 部 而 言 ，Linux 内 核 仅 为 线程 实现 了 … 个 视 网 : 它们 恕 像 一 般 的 进程 那样 共享 某 些 
资源 (最 重要 的 是 地 址 空间 )。 在 用 户 空 间 中 ，Linux 是 以 侍 合 POSIX 1003.1c 《 称 为 
pihread) 的 方式 来 实现 线程 。 当前 的 Linux 线程 实现 (这 是 glibc 的 一 部 分 ) 称 为 Narive 
POSIX Threadine Library (简称 NPTL ) 。 


进程 的 层次 结构 

每 个 进程 可 通过 一 个 具 唯 一 性 的 正 整 数 被 标识 ， 这 称 为 进程 标识 得 (process 1D， 简称 
pid ) 。 第 一 个 进程 的 pid 是 1， 之 后 每 个 进程 郡 会 收 到 - -小 独 一 无 一 的 新 pid。 在 Linux 
中 ， 所 有 进程 会 呈现 出 一 个 层次 结构 ， 这 称 为 进程 树 (process 1ree)。 进 程 树 的 根 池 点 是 
第 一 个 进程 ， 也 就 是 inif 进程 ， 通常 就 是 init (8) 程序 。 可 通过 fork() 系统 调用 创建 
新 进程 。 此 系统 调用 会 禁 进 行 调用 的 进程 (calling process) 创建 一 个 副 林 。 原 本 的 进 
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程 称 为 父 进程 (parenr)， 新 的 进程 称 为 子 进 程 (child)。 第 一 个 进程 除外 ， 每 个 进程 背 有 
父 进程 。 如 果 父 进程 在 其 子 进程 之 前 先 终止 了 ， 内 核 会 将 该 子 进程 重新 指派 给 init 进程 。 


当 - 一 个 进程 终止 时 ， 它 并 不 会 立即 从 系统 中 被 移 除 。 事 实 上 ， 内 核 会 把 该 进程 的 一 部 分 
保留 在 内 存 中 , 这 让 该 进程 的 父 进程 可 以 打听 到 它 的 终止 状态 。 这 被 称 为 等 候 (wairing 
on) 已 终止 的 进程 。 一 旦 父 进 程 等 到 其 已 终止 的 子 进程 子 进程 会 被 完全 移 除 。 一 个 已 
被 终止 的 进程 ， 如 果 没 有 父 进程 在 等 候 它 ， 则 被 称 为 便 岂 进程 (zombie)。 


用 户 与 组 
Linux 中 的 授权 机 制 由 用 户 (user) 和 组 (group) 提供 。 每 个 用 户 会 被 分 配 一 个 独 一 无 
二 的 正 整数 , 称 为 用 户 标识 符 (user 1D, 简称 uid)。 每 个 进程 恰好 会 被 关联 到 一 个 uid， 
用 来 识别 运行 进程 的 用 户 ， 这 被 称 为 进程 的 真实 用 户 标 识 符 (real uid )。 在 Linux 内 
核 内 部 , 用 户 [D 就 代表 用 户 。 然而 . 用 户 本 身 在 引用 自己 和 其 他 用 户 时 所 使 用 的 是 用 户 
名 称 (username)， 而 不 是 数值 形式 的 uid。 用 户 名 称 与 相应 的 uid 都 被 存储 在 /ercy 
passwd 文件 中 ， 而 链接 库 例 程 则 会 将 用 户 所 提供 的 用 尸 名 称 鼎 射 到 相应 的 uid，。 


登录 系统 (login) 时 ， 有 用户 必 须 给 iogin(1) 程序 提供 用 户 名 称 与 通行 密码 。 如 来 提供 
的 是 有 效 的 用 户 名 称 与 正确 的 通行 密码 , 则 login(1) 程序 会 衔 生 (spawn) 用 户 的 login 
shel! (至 于 要 执行 哪 一 个 shell， 也 是 在 /erc/passwd 文件 中 指定 的 ) ， 并 且 让 shell 的 
uid 等于 该 用 户 的 uid。 子 进程 的 uid 继承 和 白 基 父 进程 。 


用 户 [ID 会 被 分 配给 一 个 名 为 root 的 特 处 用 户 。root 用 户 具 有 特权 ， 可 以 对 系统 做 几乎 
所 有 事 。 例 如 ， 只 有 root 用 户 可 以 变更 一 个 进程 的 uid。 因 此 ，login(1) 程序 应 该 由 
root 用 户 来 运行 。 


除了 real uid， 每 个 进程 还 有 具有 一 个 有 效用 记 标 识 符 (effective uid)、 一 个 被 保存 用 户 
标识 符 (saved uid) 以 及 一 个 文件 系统 用 户 标 识 符 (filesystem uid)。 明 然 real uid 总 
是 代表 启动 进程 ,不 过 etfective uid 却 可 以 根 搓 各 种 规则 加 以 变更 ,这 让 一 个 进程 可 以 
不 同 用 户 的 使 用 权限 来 执行 。saved uid 用 来 保存 原本 的 effective uid， 它 的 全 可 用 于 
判断 用 户 可 以 切换 到 哪些 effective uid 值 。filesystem uid 通常 等 十 effeclive uid， 可 用 
于 验证 文件 系统 访问 。 


每 个 用 户 可 能 隶属 一 个 或 多 小 组 ， 人 包括 /Verc/passwd 文件 中 所 列 出 的 让 要 或 登录 组 
(primary or Iogin group)， 以 及 于 Verc/8roup 文件 中 进 加 的 组 (supplemental group)。 
每 个 进程 因此 还 会 被 关联 到 一 个 相应 的 组 标识 符 (group ID， 简 称 gid) ， 而 且 有 一 个 
真实 组 标识 符 (real gid)、 一 个 有 效 组 标识 符 (effective gid)、 一 个 被 保存 组 标识 符 
(saved gid) 以 及 一 个 文件 系统 组 标识 他 (filesystiem gid)。 进程 一 般 会 被 关联 到 某 个 用 
户 的 登录 组 ， 而 不 是 后 来 追加 的 组 。 
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安全 系统 会 在 符合 特定 条 件 的 情况 下 允许 进程 进行 某 些 操作 。 以 往 ，Unix 都 证 以 非 二 
即 白 的 方式 来 作 这 项 决定 ， 只 有 uid 为 0 的 进程 才 可 以 访问 ， 其 他 进程 则 不 行 。 近 来 ， 
Linux 将 此 安全 系统 代 换 成 能 力 更 佳 的 系统 ,新 的 系统 不 再 只 是 进行 二 进 制 检查 (binary 
check)， 它 让 内 核 可 以 根据 粒度 更 细 的 设 定 进 行 访 旧 控制 。 


使 用 权限 


如 同 以 往 的 Unix 一 样 ，Linux 中 也 有 标 惟 的 文件 权限 与 安全 机 制 。 


每 个 文件 会 被 关联 到 一 个 拥有 用 亡 、 一 个 拥有 组 以 及 一 组 权限 位 《permission bit) 。 权 
限 位 描述 了 拥有 用 户 、 拥 有 组 以 及 其 他 任何 人 是 否 有 权力 读 取 、 写 人 与 执行 该 文件 ; 这 
三 种 用 户 权限 设 定 各 需要 用 到 3 位， 所 以 总 共 需 要 用 到 9 位。 这些 拥有 者 以 及 权限 位 的 
设 定 就 存储 在 文件 的 inode 中 。 


就 肖 规 文件 而 言 , 权 限 位 的 概念 很 容 多 理解 :它们 可 用 来 指定 打开 文件 以 便 读 取 的 能 力 ， 
打开 文件 以 便 写 入 的 能 力 , 执行 文件 的 能 力 。 特殊 文件 的 读 取 和 写 人 的 权限 如 同 常规 文 
件 ,但 古 旋 取 和 写 和 的 实际 意义 因 不 同 特殊 文件 而 异 。, 执 行 的 权限 则 会 被 特殊 文件 忽略 。 
就 目录 而 言 , 读 取 权限 让 目录 的 内 容 可 以 被 列 出 , 写 人 权限 让 新 的 链接 可 以 被 加 进 目 录 ， 
而 执行 权限 让 目录 可 以 被 进入 以 及 用 在 路 径 名 称 中 。 表 1-1 完整 地 列 出 了 这 9 个 权限 位 、 
它们 的 八进制 值 (常用 来 表示 这 些 位 的 值 )、 它 们 的 文本 值 (如 同 ls 所 显示 的 方式 ) 以 
及 它们 所 代表 的 意义 。 


表 1-1: 权限 位 与 它们 的 值 


位 八进制 值 文字 值 相应 的 权限 

8 400 Ta 拥有 的 用 户 可 读 取 
7 200 人 拥有 的 用 户 可 写 人 
6 100 --XX------ 拥有 的 用 户 可 执行 
5 040 Se 拥有 的 组 可 读 取 
4 020 ----W---- 拥有 的 组 可 写 入 
3 Bi x--- 拥有 的 组 可 执行 
004 其 他 任何 人 可 读 取 
1 1 W- 其 他 任何 人 可 写 入 
0 ii x 其 他 任何 人 可 执行 


除了 以 往 Unix 所 采用 的 权限 机 制 ，Linux 还 支持 访问 控制 列表 (access control list， 
简称 ACL)。ACL 让 你 可 以 进行 更 详细 、 更 严格 的 权限 和 安全 控制 ， 但 是 必须 付出 复 
杂 度 提高 和 磁盘 存储 空间 增加 的 代价 。 
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三 
信号 (signal) 是 一 种 单 向 异步 通知 机 制 。 信 号 可 以 从 内 核 送 往 一 个 进程 ， 从 一 个 进程 
送 往 另 一 个 进程 , 或 者 从 一 个 进程 送 给 它 自 己 。 信 号 通常 用 来 通知 某 个 进程 发 生 了 某 个 


事件 ， 例 如 segmentation fault (分 段 错误 ) 或 者 用 户 接 下 了 Ctrl+C 键 。 


Linux 内 核 大 约 实现 了 30 多 种 信号 (实际 的 数 自 因 架 构 而 异 )。 每 种 信号 可 以 使 用 数值 
常量 以 及 文字 名 称 来 表示 。 例 如 ，SIGHUP 可 用 来 通知 发 生 了 终端 机 挂 起 (terminal 
hangup) 的 事件 ， 在 i386 架构 上 此 信号 可 用 1 这 个 值 来 表示 。 


除了 sIGKILL (通常 用 于 终止 进程 ) 和 SIGSTOP (通常 用 于 中 止 进程 );， 进 程 可 以 控 
制 当 自 己 收 到 一 个 信号 时 该 如 何 处 理 。 它 们 可 以 采用 默认 的 处 理 方式 :可 能 是 终止 进程 、 
终止 进程 并 产生 coredump、 中 止 进 程 或 者 什么 都 不 做 ,这 取决 于 所 收 到 的 信和 号。 为 外 ， 
进程 可 以 明确 地 选择 忽略 或 处 理 所 收 到 信和 号。 忽略 的 信号 会 被 直接 备 掉 。 处 理 的 信号 会 
导致 用 户 所 提供 的 信号 处 理 器 (signal handler) 函数 被 执行 。 一 收 到 信号 ,程序 就 会 跳 
至 此 函数 执行 ， 当 控制 权 从 信号 处 理 器 交 回 给 程序 后 , 便 会 从 先前 被 中 断 的 指令 处 继续 
执行 。 


进程 间 通 信 

允许 进程 之 间 交 换 信 息 并 通知 对 方 事 件 的 发 生 是 操作 系统 最 重要 的 工作 之 一 。Linux 内 
核实 现 了 以 往 Unix 所 采用 的 IPC 机 制 一 一 包括 System V 与 POSIX 所 定义 以 及 标准 化 
的 机 制 一 一 并 且 实 现 了 者 干 目 己 的 机 制 。 


Linux 所 支持 的 IPC 机 制 包 括 : 管道 、 命 名 管道 、 信 号 量 (semaphore)、 消 息 队 列 、 共 
享 内 存 以 及 快速 用 户 空 间 互 斥 体 (futex， 译 注 4)。 


头 文件 


Linux 系统 编程 会 用 到 一 些 头 文件 。 内 核 本 身 以 及 Siipc 都 提供 了 系统 编程 会 用 到 的 头 
文件 。 这 些 头 文件 包括 标准 C 所 需要 的 部 分 (例如 <string.h>) 以 及 Unix 通 贡 会 
用 到 的 部 分 (例如 <unistdad.h>)。 


销 误 处 理 


不 用 说 , 检查 以 及 处 理 错误 也 具有 至 高 无 上 的 重要 性 。 在 系统 编程 中 , 错误 是 通过 函数 的 返 
回 值 来 表示 并 通过 特殊 变量 errno 来 摘 述 。8giipec 会 以 通明 的 方式 为 链接 库 和 系统 调用 提 
供 errno 支持 。 本 书 所 提 到 的 接口 绝 大 多 数 都 会 使 用 此 机 制 来 沟通 所 发 生 的 错误 。 


OE EBS Oe 





译 广 4: futex 代表 “fast user-space mutex 。 


了 0 


国 数 会 通过 一 
际会 使 用 哪个 值 因 了 消 数 而 界 )。 
任何 是 以 洞察 错误 为 何故 
此 变量 定 区 


它 的 值 只 有 在 设 定 过 ercrno 的 函数 发 生 了 错误 


-个 特殊 的 返回 值 来 通知 调用 者 发 生 错 误 的 事实 ,这 个 
此 错误 值 只 用 来 警告 调用 者 有 错误 发 后 了， 


Srrno 亚 量 


后 的 信息 。 


四 于 所 [有 : 


人 1-, 
EG. i> 


rn nL erims; 


在 油 数 成 荔 执 行 期 间 修 疏 此 变节 的 内 容 是 完全 合 渤 鸭 。 


' 可 以 直接 渤 或 写 errno 变量 ,tt 
岁 值 会 映 吊 色相 jy 
rrno 值 。 江 例 来 亢 ， 

(拒绝 不 符合 权限 的 操作 )。 表 1-2 列 出 


错误 与 相应 的 摘 述 


denlied 


表 1-2: 


巧 是 -- 
此 识 的 挛 字 摘 述 。 琉 处 邢 据 售 da 
据 处 理 指令 可 以 将 EACCESS 定 半 成， 表 水 
了 标准 的 证 义 以 及 相应 和 


预 处 理 指令 的 定义 描述 
| Areument list too long {人 参 艇 列 胡 太 长 ) 


TT 
EA] 
FSTL 
ELMTR 


LNYVAL 


ENODNDEY 


ENOENT 


FNOLXFC 





Permission denied (六 绝 不 符合 权限 的 操 作 ) 
Try again ( 措 试 一 次 ) 


Bad file number (文件 数 月 鲁 误 ) 


Device or resource busy (设备 或 系统 资源 忙 候 中 ) 


No child processes (大 子 进程) 

Math argument outside of domain of Funetion (数学 
数 的 十 头 域 ) 

File already exists { 交 件 已 存在 ) 

Bad address 工 错误 的 地 直 ) 

File too large 【是 件 友人 大 ) 

System call was Interrupted ( 系统 出 有 被 禁 让 ， 
[Invalid areument (无 效 的 敌 娄 ) 

LO error [OO 错误 ) 

Edirectory 【过 一 企 晶 下) 

Too many open ties 【二 下 的 净 件 大 多 ) 

Teoeo manv links ( 太 多 的 链接 ) 

Pile table overflow 1!( 艾 作 表 送 让) 

(无 此 设备 】 

No such file or directory (无 此 文件 或 目 薄 ) 


Exec Tormal error (exev 覆 虑 钳 绒 ) 


EE ss ss 


No such device 


一， 


退回 傅 通 


(通常 是 点 回 -1) 时 才 有 意义 ， 


个 可 修改 的 下 全 (modifiable Jvalue 上 。 
5ine 还 可 以 用 来 村 应 数值 形式 和 的 


常 是 -1( 实 
让 没有 提供 


可 用 来 找 出 错误 发 生 的 原因 ，。 


因为 


i 


“~ permission 


此 放 的 横 还 。 


:参数 超出 消 


表 1-2: 错误 与 相应 的 描述 ( 续 表 ) 





预 处 理 措 令 的 定义 描述 

ENOMEM Dul or memory (内 存 游 出) 

RNOSPC No space lefl on deviee (人 和 点 空间 不 是 】 

NOTDIR Not a direeclory 【不 是 -一 个 月 下 

ENON'LY Inapprnpriale ]/O eontrof operation (不 恰 半 的 WO 控制 操作 ) 
MXIO No sueh device or address (无 此 度 亩 或 地 址 ) 

ERM Orneraiion Pat pernutled {| 闻 作 水 和 塞 9) 

,Pb Breken pipe 1 管 时 撩 和 

和 Resuli ioo large (伟人 朱 太太 ]】 

FS Read-only filesystem i 浊 世 件 承 蚁 ) 

TEE Invalid secek (不 合法 [国土 找 ) 

‘BMH No sueh Process 【无 此 进 和 ) 

TXTRSY Text Tile busy ( 交 本 区 件 忙 ) 

XDEY Improper 1ink 下 不 过 二 川 则 链接) 

C | :提供 了 可 以 地 errno 的 值 转 详 成 相应 文字 撞 玉 的 若干 困 数 。 这 具 在 进行 错误 报 


竺 之 业 的 工作 肝 需 时 ， 馈 诬 的 给 站 和 处 理 可 以 志 搂 as 区 以 及 ercno。 
此 类 消 数 中 弟 - 一 个 要 介绍 的 是 Eee li 


#include <stdio.h> 


VOid BerroGr (eonst char *satr}):; 


此 霄 数 会 将 前 数 发 生 错误 的 原因 输出 至 siderr (标准 错误 )， 先 输出 scz 所 指向 的 字 
r 


从 市 ， 接 着 输出 宇 号 ， 划 后 输出 错误 稍 述 字符 事 《 其 内 容 取决 于 “me 的 值 )。s 
所 指 癌 的 字符 中 币 定 成 发 生 错 民国 明基 的 名 称 ， 例 如 : 
1i [网 六 | Cc: | 
PerTeor Lr |osm" 


C 链接 库 还 提供 六 stirerrori) 和 SEC 全 的 数 ， 入 人 们 有 的 原型 分 别 是 ， 
#incelude <string,.hs 


char * strerror (int errnum}; 


#include <string.h> 


int strerror rr (int errnum, char *buf, aize t len}). 


闸 一 个 strerror() 国 数 会 根据 参数 eroaaom 上 个 找 到 错 退 摘 述 宇 征 市 并 反问 指 间 
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该 字符 串 的 指针 。 应 用 程序 不 得 直接 修改 此 字符 串 ,不 过 可 以 通过 随后 的 Perzrozr () 和 
strerror () 调用 予以 修改 。 此 国 数 不 具 线 程 安 全 性 。 


strerror_r() 国 数 具 线程 安全 性 。 它 的 功能 如 同 strerzror{()， 但 是 会 把 找到 错 
误 描述 字符 蝇 填 人 buf 所 指 问 的 长 度 为 1en 的 缓冲 区 。 如 果 strertror_r() 的 调用 
成 功 会 返回 0， 否 则 会 返回 -1。 好 笑 的 是 ， 它 会 在 自己 发 生 错 误 时 设 定 errno。 


对 革 些 国 数 而 言 ， 整 个 系 列 的 返回 类 型 都 是 人 台 法 的 返回 值 。 因 此 ,调用 此 类 国 数 之 前 此 
须 将 errno 的 值 设 为 零 ， 并 于 事后 进行 检查 (此 类 函数 只 会 在 实际 发 生 错 误 时 返回 非 
零 值 的 error)。 例如: 


errno = 0: 
旦 六 可 strtoul {Buf, NULL, 0): 
if lerrnoe) 

Perror ("strtoul").; 


检查 errno 时 第 犯 的 错误 就 是 后 记 任 何 链接 库 或 系统 调用 都 可 以 改变 它 。 例 如 ， 下 面 
刘 段 有 缺陷 的 程序 代码 : 


if {fsync (fd) == -1} { 
fprintf (stderr, "fsync failed!‘\n").; 
if {errno == EILO) 


fprintf (stderr, "I/O error on Sd9!%n", fdil: 


} 
要 让 errno 的 值 可 以 跨 函 数 调用 ， 你 必须 保存 它 : 
if (feyne (fd) = | 
nt err = errTer: 
fprintf (stderr, "fsync failed: %s3\n", Strerror (errno)): 
if terr == EIOQY 1 


A* 如 果 错 误 与 T/C 有 关 ， 弃 船 */ 
fprintf (stderr, "I/Q error on gdi\n", fd}; 
exit (EXIT FAILURE}): 

} 


在 单线 程 的 程序 中 ，errno 是 全 局 变量 , 正如 本 节 稍 早 所 述 。 然 而 , 在 多 线程 程序 中 ， 
errno 会 按 每 个 线 程 来 存储 ， 因 此 具有 线程 安全 性 。 


口 =- 
回 系统 编程 迈进 
这 一 章 介 绍 了 Linux 系统 编程 的 基础 知识 ， 并 以 程序 设计 者 的 观点 概述 了 Linux 系统 。 
下 一 章 将 讨论 基本 的 文件 TO (输入 /输出 )。 当 然 , 这 包括 了 文件 的 读 写 操作 ,然而 因 
为 Linux 将 许多 接口 实现 成 文件 ， 所 以 文件 MO 比 文件 重要 多 了 ， 
开场 日 已 经 远 远 落 在 我 们 后 面 , 逐渐 消失 在 地 平 线 中 , 迈 向 系统 编程 的 时 间 已 到 . 前 
进 吧 1 


a = — = 


一 旱 


文件 1O 





本 章 会 说 明 读 写 文件 的 基本 原理 。 此 类 操作 是 Unix 系统 的 基础 功能 。 第 三 章 将 说 明 标 
准 C 链接 库 所 提供 的 标准 IO 功能 ， 并 于 第 四 章 说 明 更 高 级 和 特殊 的 IO 接口 。 最 后 
以 第 七 章 所 介绍 的 文件 和 目录 操作 为 IO 的 探讨 画 下 完美 的 名 点。 


一 个 文件 必须 先 打 开 , 才 可 以 对 它 进行 读 取 操 作 。 内核 会 奉 每 个 进程 维护 一 份 已 打开 文 
件 列表 ， 称 为 文件 表 (file table)。 此 表 是 通过 非 负 整 数 被 索引 ， 而 此 非 负 整数 称 为 文 
件 描述 符 (file descriptror， 常 简写 为 向 ) 。 读 表 中 每 个 条 目 内 含 与 已 打开 文件 相关 的 信 
漳 包括 一 个 指针 (指向 文件 inode 在 内 存 中 的 副本 ) 以 及 相关 的 元 数据 (例如 文件 位 

置 与 访问 模式 )。 用 户 空 间 与 [9 核 空 z 间 都 会 把 文件 描述 符 当 成 独一无二 的 “每 个 进程 识 
别 符 号 ”(per-process cookies, 译注 1)。 打开 一 个 文件 便 会 返回 一 _ 个 “文件 描述 符 ” 而 
随后 的 操作 ( 读 取 、 写 入 等 ) ) 则 会 以 “文件 描述 符 ” 作 为 主要 的 参数 。 


默认 情况 下 , 子 进程 会 取得 其 父 进程 的 文件 表 。 已 打开 文件 列表 与 它们 的 沪 问 模式 、 当 
前 的 文件 位 置 等 多 都 一 样 ， 但 是 一 个 进程 所 做 的 改变 (例如 ， 子 进程 关闭 了 一 个 文件 ) 
不 会 影响 其 他 进程 的 文件 表 。 然 而 ， 正 如 你 将 会 在 第 五 草 看 到 的 ， 子 进程 与 父 进 程 可 | 人 
共享 父 进程 的 文件 表 (如 同 线程 那样 )。 


文件 描述 符 会 被 表示 成 C 的 int 数据 类 型 ， 不 再 使 用 以 往 Unix 部 在 使 用 的 特殊 数据 
类 型 一 一 例如 £6_t。 每 个 Linux 进程 所 能 打开 的 文件 数目 部 有 上 上限。 文件 搞 述 符 从 
0 开始 起 算 ， 可 以 一 直 增 长 到 比 上 限 值 少 1 的 数目 。 默 认 情 况 下 ， 上 限 值 为 1,024, 但 
是 最 高 可 设 定 到 1,048,576。 因 为 负 值 并 非 有 效 的 文件 摘 述 符 ， 所 以 -1L 通 和 贡 代 表 国 数 
发 生 了 错误 ， 否 则 会 返回 有 效 的 文件 插 述 符 。 


译注 ]: “per-pTocess” 是 指 “ 每 个 进程 ”的 意思 ， 所 以 “per-proeess COOKies” 是 指 “ 每 个 进程 
都 会 拥有 的 识别 符号 ”。 
了 了 


同上 
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除非 进程 显 式 地 予以 关闭 , 否则 每 个 进程 按照 惯例 至 少 会 打开 三 个 文件 描述 符 《fd) :0、 
1 和 2, fd 0 是 standard in (标准 输入 , 常 简写 为 sidin), fd 1 十 standard oui ( 标准 输 
出 ， 常 简写 为 stdou1), 而 fd 2 是 standard error (标准 错误 ， 篆 简写 为 stderr) 。 实 际 
使 用 时 并 不 会 直接 使 用 这 些 整 数值 ， 而 是 使 用 C 链接 库 通 过 预 处 理 指 令 所 定义 的 
STDIN_FILENO、 STDOUT_FILENO 和 STDERR_FILENO,。 


请 注意 ,文件 描述 符 所 能 引用 的 不 仅 是 常规 文件 。 它 们 还 可 用 于 访问 设备 文件 和 管道 、 
目录 和 futex、FIFO 以 及 socket 遵 奉 “ 一 切 缘 文件 ”的 哲学 ， 任 何 来 西 ， 只 要 可 
以 对 它 进行 读 或 写 操作 ， 几 乎 就 能 通过 文件 描述 符 来 对 它 进行 访问 。 


打开 文件 


访问 文件 的 最 基本 方法 就 是 通过 read() 和 write() 系统 调用 。 然 而 ， 访 问 文件 之 
前 ， 必 须 先 通过 open() 或 creat() 系统 调用 打开 该 文件 。 一 旦 文件 使 用 完毕 ， 应 
该 使 用 close() 系统 调用 予以 关闭 。 





open() 系统 调用 
使 用 open1l) 系统 调用 打开 文件 之 后 ， 就 会 取得 一 个 文件 摘 述 符 : 


#include <eavya/types.h> 
#1include <agva/aetat.h> 
#include <*fcentl.h> 


int open (conat char *name, int flagas}):; 
int open (consgt char *name, int flags, mode t mode); 


open() 系统 调用 用 来 将 路 径 名 称 name 所 指定 的 文件 映射 至 一 个 文件 描述 符 ， 并 于 
映射 成 功 后 返回 该 文件 描述 符 。 文 件 位 置 会 被 设 为 零 ， 而 且 会 根据 flags 所 指定 的 标 
志 来 打开 该 文件 以 便 进 行 访问 。 


open() 的 标志 
flags 参数 必须 是 0_RDONLY、O_WRONLY 或 0_RDWR 其 中 之 一 。 这 些 标志 值 可 分 
别 让 所 打开 的 文件 用 于 读 取 、 写 人 、 读 写 操作 。 


举例 来 说 ， 下 面 的 程序 代码 会 打开 /home/kidd/madagascar 来 进行 读 取 操作 : 


文件 IO 32 


int fd: 


fa = cpen {""/home/kidd/madagascar", OO RDONLY): 
if {fd == -1) 
/* 错误 */ 
一 个 为 写 入 操作 所 打开 的 文件 , 你 无 法 对 它 进行 读 取 操 作 , 反之 亦 然 。 进行 open() 系 
统 调 用 的 进程 必须 具备 足够 的 权限 方 能 进行 所 要 求 的 操作 。 


设 定 flags 参数 时 ， 可 将 下 面 所 列 的 值 以 bitwise-OR ( 按 位 OR 逻辑 运算 ) 的 方式 组 
合 在 一 起 ， 以 便 调整 打开 要 求 的 行为 : 


O_APPEND 
以 附加 模式 (append mode) 打开 文件 。 也 就 是 在 每 次 进行 写 人 操作 之 前 ， 文 件 位 
盖 将 说 更 新 成 指 同 文件 结尾 。 即 使 进程 上 次 进行 写 入 操作 之 后 有 另 一 个 进程 也 对 文 
件 进 行 了 写 人 操作 ,也 会 因此 变更 文件 位 置 (参见 本 章 稍 后 的 “附加 模式 "这 一 节 )。 
O_ASYNC 
如 未 所 指定 的 文件 变 成 可 读 取 或 可 写 人 的 , 则 产生 一 个 信号 (默认 为 SIGIO) 。 此 
标志 可 用 于 终 凯 机 以 及 sockets， 但 不 可 用 于 常规 文件 。 
O_CREAT 
如 后 name 所 指定 的 文件 尚 不 存在 , 则 内 核 将 会 创建 它 ; 如 果 该 文件 已 经 存在 , 除 
韭 同 时 指定 了 0_EXCL， 否 则 此 标志 将 毫 无 作用 ， 
O_DIRECT 
打开 文件 以 便 进行 直接 MO (参见 本 章 稍 后 的 “直接 WO” 这 一 节 )， 
O_DIRECTORY 
如 未 name 不 是 一 个 目录 , 则 open() 调用 会 失败 ,此 标志 于 内 部 供 opendir 1) 
链接 库 调 用 所 用 。 
O_EXCL 
指定 0_CREAT 时 ， 如 果 name 所 指定 的 文件 已 经 存在 ， 此 标志 将 导致 open () 
册 用 失败 。 这 可 用 于 避免 文件 的 创建 出 现 竟 争 条 件 (race condition ) 。 
O_LARGEFILE 
所 指定 的 文件 将 采用 64 位 的 偏 移 量 打开 ， 以 便 打开 尺寸 大 于 2GB 的 文件 。 在 64 
位 架构 上 这 是 默认 值 。 
O_NOCTTY 
如 果 name 所 指定 的 是 一 个 终端 设备 【例如 /Wdev/try) ， 它 不 会 变 成 进程 的 控制 终 
颖 ， 妈 使 进程 当前 并 不 具有 控制 终端 。 此 标志 并 不 常 被 用 到 。 


溜 客 安全 网 WwW.176Ku.CoM 


外 
坪 


36 第 


O_ NOFOLLOW 
如 果 name 是 一 个 符号 链接 ， 则 epen () 调用 将 会 失败 。 一 般 情况 下 ， 链 接 会 被 
解析 , 而且 会 打开 目标 文件 。 如 果 所 指定 的 路 径 中 有 其 他 元 素 是 链接 , 则 open () 
调用 仍旧 会 执行 成 功 , 举例 来 说 , 当 name 是 /eicyPipypiark na 时 ,如果 PlanK.rri 
是 一 个 符号 链接 ， 则 open () 调用 将 会 失败 。 然 而 ， 如 果 etc 或 ship 是 特写 链 
接 ， 则 只 要 plank.txi 不 是 符号 链接 ，cpen () 调用 就 会 成 功 执 行 。 

O_NONBLOCK 
如 果 可 能 ， 将 以 非 阻 挡 模 式 (nonblocking mode) 打开 文件 。 这 使 得 open!) 调 
用 以 及 任何 其 他 操作 都 不 会 让 进程 在 进行 VO 时 受到 阻挡 (进入 休眠 状态 )。 此 行 
为 只 能 用 于 定义 FIFO。 

iO_SYNC 
打开 文件 以 便 进行 同步 WO。 直 到 数据 被 实际 写 入 磁盘 之 前 都 不 会 完成 写 入 操作 ， 
一 般 的 读 取 操作 已 经 是 同步 的 方式 了 ,所 以 此 标志 并 不 会 影响 读 取 操作 。 POSIX 和 客 


外 定义 了 O_DEYNC 和 0C_RSYNC, 在 Linux 上 ,这 两 个 标志 与 0_SYNC 是 同义词 
(参见 本 音 稍 后 的 “O_SYNC 标志 ”这 一 节 )。 
OQ_TRUNC 


如 果 文 件 存在 , 是 常规 文件 . 而 且 所 指定 的 标志 允许 进行 写 入 操作 , 则 文件 将 被 截 
短 成 零 长 度 。 对 FIFO 或 终端 设备 使 用 0_TRUNC 会 被 忽略 。 其 他 类 型 文件 的 用 
法 并 未 被 定义 。 同 时 指定 0_RDONLY 与 O_TRUNC 的 用 法 也 未 被 定义 ， 因 为 你 需 
要 对 文件 进行 写 人 操作 以 便 截 短 它 。 
举例 来 说 ， 下面 的 程序 代码 会 打开 文件 Miomeeuchvpear 以便 进行 写 估 操作。 如 果 文 
件 已 经 存在 , 则 将 它 截 短 成 零 长 度 。 因 为 并 未 指定 0_CREAT 标 志 , 如 果 文 件 尚 不 存在 ， 
则 open (} 调用 会 失败 : 


fd = open {home/teach/pearl", O_ WRONLY | O_TRUNC}:; 


新 文件 的 拥有 者 

判断 哪个 用 户 拥 有 新 文件 非常 简单 : 文件 拥有 者 的 uid 就 是 创建 文件 的 进程 的 有 效 uid。 
判断 拥有 组 则 | 比较 复 妨 ,默认 的 做 法 就 是 将 文件 的 拥有 组 设 定 为 创建 文件 的 进程 的 有 效 
gid。 这 是 System V 的 行为 (大 部 分 Linux 系统 的 行为 模型 )， 也 是 标准 Linux 的 做 法 


(modus operandi)., 


文件 I/O 37 





然而 麻烦 的 是 BSD 却 定 义 了 自己 的 行为 ; 文件 的 拥有 组 会 被 设 定 为 上 层 日 录 的 gid。 你 
可 以 通过 挂 载 选项 ( 注 1) 让 Linux 采用 此 行为 一 一 如果 文 件 的 上 层 目 录 设 定 了 组 ID 
(setgid) 位 ， 则 这 也 是 Linux 默认 的 行为 。 尽 管 大 部 分 Linux 系统 采用 的 是 System V 
的 行为 (新 文件 的 拥有 组 就 是 创建 进程 的 gid)， 由 于 可 能 会 采用 BSD 的 行为 (新 文件 
的 拥有 组 就 是 上 层 目 录 的 gid), 这 意味 着 , 在 乎 此 事 的 程序 代码 需要 通过 chown{) 系 
统 调用 手动 设 定 拥 有 组 (参见 第 七 草 )。 


幸好 ， 一般 并 不 需要 在 平 文件 的 拥有 组 。 


新 文件 的 使 用 权限 


前 面 所 列 出 的 两 种 open {) 系统 调用 格式 都 是 正确 的 。 除 非 你 是 在 创建 文件 ,否则 mode 
参数 会 被 忽略 ， 如 果 指 定 0_CREAT 标志 ， 则 需要 使 用 mo Ge 参数 。 如 果 你 在 使 用 
0_CREAT 时 忘 了 提供 mode 参数 ， 则 其 结果 未 定义 ， 而 且 通 常会 很 麻烦 一 一 所 以 不 
ET! 


当 一 个 文件 被 创建 时 ，mode 参数 可 用 来 为 新 创建 的 文件 设 定 使 用 权限 。 以 这 个 特殊 的 
方式 打开 文件 时 并 不 会 检查 mode 参 数 所 设 定 的 使 用 权限 , 所 以 你 可 以 进行 与 使 用 权限 
抵触 的 操作 ， 例 如 打开 文件 以 进行 写 人 操作 时 ， 却 替 文 件 设 定 只 读 的 使 用 权限 。 


参数 mode 就 是 人 们 熟悉 的 Unix 使 用 权限 位 设 定 值 ， 例 如 0644 这 个 八进制 值 (拥有 
者 可 以 进行 读 写 操 作 ， 其 他 任何 人 只 能 进行 读 取 操作 )。 就 技术 而 言 ， POSIX 允许 实际 
的 设 定 值 因 实现 而 异 ， 这 让 Unix 系统 得 以 安排 自己 所 期 望 的 权限 位 。 为 了 史 补 moae 
参数 中 位 的 摆 放 位 置 的 不 可 移植 性 , POSIX 引进 了 如 下 可 以 用 binary-OR (二 元 OR 还 
辑 运算 ) 组 合 在 一 起 的 常量 来 供 mode 参数 所 使 用 : 
S_ TRWAXU 

拥有 者 具有 读 取 ，、 写 人 和 执行 的 权限 。 
S_ IRUSR 

拥有 者 具有 读 取 的 权限 。 
3_IWUSR 

拥有 者 具有 写 人 的 权限 。 
已 _ 工 总 吕 后 民 

拥有 者 具有 执行 的 权限 。 
S_IRWAG 

组 具有 读 取 、 写 人 和 执行 的 权限 。 


注 1: 持 载 选项 bsdgroups 或 SysSVvgroups。 
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S_IRGRDE 
组 具有 读 取 的 权限 。 
3_IWGRP 
组 具有 写 人 的 权限 。 
与 _ 了 开交 (及 下 
组 具有 执行 的 权限 。 
S_ITRWAO 
其 他 所 有 人 具有 读 取 、 写 人 和 执行 的 权限 。 


S_TROTH 
其 他 所 有 人 具有 读 取 的 权限 。 
S_IWOTH 
其 他 所 有 人 具有 写作 的 权限 。 
S_IXOTH 
其 他 所 有 人 具有 执行 的 权限 。 
磁盘 实际 的 权限 位 设 定 取决 于 “ “mode 参数 ”与 “用 户 的 文件 创建 掩 码 (umask) 的 补 
码 ” 进 行 binary-AND (二 元 AND 逻辑 运算 ) 的 结果 。 简 而 言 之 ，umask 中 的 位 用 来 
关闭 cpen{) 系统 调用 的 mode 参数 中 相应 的 位 。 因 此 , 值 为 022 的 umask 会 让 值 为 
0666 的 mode 参数 变 成 0644 (0666 & ~022 的 结果 )。 身 为 一 个 系统 编程 人 员 , 设 定 使 
用 权限 时 , 你 通 第 不 需要 考虑 umask 的 问题 umask 的 存在 是 让 用 户 可 以 在 他 的 程 
序 创建 新 文件 时 限制 其 使 用 权限 。 


举 一 个 例子 , 下 面 的 程序 代码 会 打开 file 参数 所 指定 的 文件 来 进行 写 人 操作 。 如 果 文 
件 不 存在 ， 假 设 umask 的 值 为 022， 则 所 创建 的 文件 具有 0644 的 权限 设 定 值 (即使 
mode 参数 的 值 为 0664) 。 如 果 文 件 已 经 存在 ， 该 文件 就 会 被 截 短 成 零 长 度 : 


int fd; 





fa = open {file, O WRONLY | 0 CREAT | OLTRUNC, 
S_IWUSR | S_IRUSR | S_IWGRP | S_IRGRP | S_IROTH); 
if (fd == -=11 
/* 钳 民 */ 


creat() 函数 


由 于 O_WRONLY | O_CREAT | 0_TRUNC 的 组 合 太 常见 了 , 所 以 有 一 个 系统 调用 专门 提 
供 此 行为 : 
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#include <BYva/typPes.h> 
#include <Sva/atat.h> 
#include <fcntl.h> 


int creat (conast char *name, mode t mode); 


主 乌 
me 





没 错 ,函数 的 名 字 漏 掉 了 一 个 “e”"。Unix 的 创造 者 Thompson 曾经 开玩笑 地 说 ， 
,设计 Unix 时 遗漏 字母 是 他 最 大 的 遗憾 。 


下 面 是 典型 的 creat () 调用 : 
imt fa; 


fid = creat {file, O0844}; 
it€ ff == -=1} 
/+* 错误 */ 
其 行为 与 下 面 的 程序 代码 是 同样 的 : 
int fad; 
fd = open (file, O_WRONLY | Q CREAT | 0O_TRUNC, 0644); 
ift tftd == -1) 
/* 错误 */ 
在 多 数 Linux 架构 中 ( 注 2)，creat () 是 一 个 系统 调用 ， 尽 管 在 用 户 空间 中 实现 它 
很 容易 : 
int creat (caonst char *name, int model 


return open {name, O_WRONLY | D_CREAT | O_TRUNC, mode)}; 
} 


这 种 重复 的 现象 是 历史 遗迹 ,因为 以 前 的 open () 只 有 了 两 个 参数 。 如 今 ,保留 creat ( ) 
系统 调用 的 目的 只 是 为 了 兼容 性 。 新 的 架构 可 以 在 glibc 中 自行 实现 creat () 。 


返回 值 与 错误 代码 

open() 与 creat {) 会 在 执行 成 功 时 返回 一 个 文件 描述 符 。 执 行 失 败 了 时 ， 会 返回 -1 并 
将 errno 设 定 为 适当 的 错误 值 (第 一 章 讨论 过 errno 并 列 出 了 可 能 的 错误 值 )。 处 理 
文件 打开 时 所 发 生 的 错误 并 不 困难 ,因为 撤销 打开 的 行为 只 需要 采取 少许 的 步 又 或 者 根 
本 不 需要 有 任何 作为 。 典 型 的 反应 就 是 提示 用 户 使 用 不 同 的 文件 名 或 者 直接 终止 程序 。 


主 2: 如 先前 所 述 , 系统 调用 的 定义 因 架 构 而 上 ,因此 , 尽管 i386 有 一 个 creat () 系统 调用 ， 
但 是 Alpha 并 没有 。 当 然 ， 你 可 以 在 任何 架构 上 使 用 creat() ,但 是 你 所 使 用 的 可 能 
是 库 芳 数 而 不 是 架构 本 身 的 系统 调用 。 
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以 read() 进行 读 取 操 作 
知道 如 何 打开 文件 之 后 ， 现 在 让 我 们 来 看 看 如 何 读 取 文件 ， 下 一 节 则 会 研究 写 人 操作 。 
污 取 操作 所 使 用 的 最 基本 且 最 常见 的 机 制 就 是 POSIX.1 所 定义 的 read () 系统 调用 ， 


#include <unistd.h> 


sgize t read {int fda, void *buf, size t len);}; 


每 次 调用 read () 就 会 从 fa 参数 所 引用 文件 的 当前 文件 位 置 读 取 len 个 玫 放 到 Puf。 
执行 成 功 后 会 返回 写 人 buf 的 字 节 数目 ， 执 行 失败 时 会 则 返回 -1 并 设 定 errno。 文 
件 位 置 会 前 进 到 从 fa 所 读 取 的 字 节 数目 。 如 果 £9 所 代表 的 对 象 不 具有 查找 位 首 的 能 
力 〈 例 如 这 是 一 个 字符 设备 文件 )， 则 每 次 只 会 从 “当前 ”位 置 读 取 数 据 。 


基本 的 用 法 很 简单 。 下 面 的 范例 会 从 文件 描述 符 fa 读 取 字 节 到 word。 所 读 进 的 字 市 
数目 等 于 unsigned long 数据 类 型 的 大 小 ,在 32 位 的 Linux 系统 上 这 是 4 个 字 市 的 
大 小 ， 在 64 位 系统 上 这 是 8 个 字 节 的 大 小 。 返 回 时 ，nr 等 于 所 读 进 的 字 市 数目 ， 如 
果 发 生 错误 则 等 于 -1: 


UNSigned long word: 
sslize t nr; 


A 以 fa 读 取 字 布 到 ' word' */ 
nr = read (fd, &word, sizeof funsigned long})}):; 
if {nr == -1) 
/+* 错误 */ 
这 个 简单 的 实现 有 两 个 问题 ，read() 调用 可 能 在 读 完 len 个 字 节 之 前 就 返回 了 ， 
此 可 能 会 产生 程序 代码 没有 检查 到 以 及 无 法 处 理 的 错误 。 遗憾 的 是 , 此 类 程序 代码 非常 
第 见 。 让 我 们 来 看 看 如 何 改进 它 。 


返回 值 

read{) 返回 小 于 len 的 非 零 正 数 并 不 算 错 旋 。 发 生 此 情 沱 的 原因 可 能 是 : 可 供 读 取 
的 字 节 数目 小 于 1en ， 系 统 调 用 可 能 收 到 信号 而 中 断 ， 管 道 可 能 坏 了 (如 采 fd 是 管 
道 ) 等 。 


使 用 read () 时 ， 返 回 值 为 0 的 可 能 性 是 另 一 个 应 该 考虑 的 因素 。reaqd () 系统 调用 
会 返回 0 以 指示 到 达 了 文件 末端 (end-of-file ， 常 简写 为 EOF) ， 在 此 情况 下 ， 当 然 没 
有 字 节 可 供 读 取 。EOF 并 不 算 错 误 (因此 不 会 以 -1 作为 返回 值 )， 这 表示 文件 位 置 已 
经 超过 了 文件 中 最 后 一 个 有 效 偏 移 值 ， 因 此 没有 任何 其 他 字 节 可 供 读 取 。 然而 ,如果 你 
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以 readl() 调用 读 取 len 个 字 节 ， 但 是 可 供 读 取 的 字 节 尚未 出 现 ， 则 此 调用 将 受到 阻 
挡 (进入 休眠 状态 )， 直 到 出 现 可 供 读 取 的 字 节 (假设 文件 描述 符 被 开启 时 并 未 进入 非 
阻挡 模式 , 参见 本 章 稍 后 的 “ 非 阻挡 式 读 取 操 作 ”一 节 )。 注 意 , 这 不 同 于 返回 EOF, 也 
就 是 说 ,“no data available” (无 数据 可 用 ) 与 “end of data”( 到 达 数 据 末 端 ) 并 不 相 
同 。 就 EOF 的 情况 而 言 ， 这 是 指 到 达 了 文件 末端 ， 就 受阻 挡 的 情况 而 言 ， 读 取 操 作 正 
在 等 待 更 多 的 数据 一 一 就 像 对 一 个 socket 或 一 个 设备 文件 进行 旋 取 操作 的 情况 。 


有 些 错误 是 可 恢复 的 。 举 例 来 说 ， 如 果 在 进行 read{) 调用 时 ， 却 在 读 取 任 何 字 节 之 
前 因 收 到 信号 而 中 断 ， 它 便 会 返回 -1 (返回 0 可 能 会 与 EOF 混 清 ), 而 且 errno 会 
被 设 为 BINTR。 在 此 情况 下 ， 你 可 以 再 次 进行 read() 调用 。 


的 确 ，read() 调用 的 结 示 有 许多 种 可 能 性 ， 


。 ”此 调用 的 返回 值 等 于 len。 所 读 取 的 len 个 字 节 会 被 存放 到 buf 中 。 这 是 预期 
的 结果 。 

。 此 调用 的 返回 值 小 于 1en， 但 是 大 于 零 。 所 读 取 的 字 节 会 被 存放 到 buf 中 。 发生 
此 情况 的 原因 可 能 是 ; 读 取 操作 进行 期 间 因 收 到 信号 而 中 断 , 读 取 操 作 进 行 期 间 发 
生 了 一 个 错误 ,可 供 读 取 的 宇 布 数 日 大 于 零 但 小 于 len，, 或 者 读 取 到 len 个 字 节 
之 前 先 到 达 了 文件 末端 。 重 新 进行 read () 调用 (在 puf 和 1len 的 值 根据 前 一 
次 的 进度 做 过 更 新 的 情况 下 ) 可 把 剩余 的 字 节 读 进 剩余 的 缓 促 区 或 指出 问题 的 原因 。 

。 ”此 调用 的 返回 值 为 0。 这 表示 EOF (到 达 了 文件 末端 )。 没 有 数据 可 读 。 

。 ”此 调用 被 阻挡 , 因为 可 供 读 取 的 数据 目前 尚未 出 现 。 在 非 阻挡 模式 中 并 不 会 发 生 此 
情况 。 

. 此 调用 的 返回 值 为 -1, 而 且 errno 被 设 为 EINTR。 这 表示 在 任何 字 节 被 读 取 之 
前 收 到 了 一 个 信和 号。 你 可 以 再 次 进行 此 调用 ， 

* ”此 调用 的 返回 值 为 -1， 而 且 errno 被 设 为 EAGAIN。 这 表示 读 取 操作 被 阻挡 ， 
因为 可 供 读 取 的 数据 目前 尚未 出 现 , 而 且 稍 后 应 该 再 次 进行 此 调用 ,此 情况 只 发 生 
在 非 阻 挡 模 式 中 ， 

。 此 调用 的 返回 值 为 -1， 而 且 errno 被 设 为 EINTR 或 EAGAIN 以 外 的 其 他 值 。 
这 表示 一 个 更 严重 的 错误 。 


读 取 所 有 的 字 市 


这 些 可 能 性 意味 着 ， 如 果 你 想 处 理 所 有 错误 并 实际 读 取 到 len 个 字 节 (至 少 读 取 到 
EOF) ， 那 么 简单 使 用 前 面 所 列 的 eada() 并 不 合适 。 事 实 上， 你 需要 一 个 循环 以 及 车 
干 条 件 语句 : 


| 
超 
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B12e tt ret: 


while (len != 0 && (ret = read {fd, buf, len})} != 0) { 
] 下 {I 上 es -1) { 
if {errno == EINTR) 


CONtinNnue: 
perror lI"read"):; 
break; 


这 上 段 程序 代码 可 以 处 理 5 种 可 能 会 碰 到 的 情况 。 程 序 的 循环 会 从 fa 的 当前 文件 位 置 读 
取 len 个 字 刷 到 buf。 它 会 继续 读 取 完 1en 个 字 节 或 直到 抵达 EOF。 如 果 所 读 取 的 
字 市 数目 大 于 震 , 但 是 小 于 len, 则 len 的 值 会 减 去 已 读 取 的 字 节 数目 ，but 的 值 会 
加 上 已 读 取 的 字 节 数目 ， 并 且 再 次 进行 此 调用 。 如 果 此 调用 返回 -1 而 且 errno 等 于 
EINTR， 则 不 需要 更 新 参数 就 可 以 再 次 进行 此 调用 。 如 果 此 调用 返回 -1 而 且 errno 
饿 设 为 任何 其 他 值 ， 则 会 调用 perror() 以 便 将 相关 说 明 输 出 至 标准 错误 而 月 会 终止 
循环 。 


部 分 读 取 不 仅 合 法 而 且 也 很 普遍 ,无 数 的 缺陷 源 自 程序 设计 者 不 能 受 善 检查 并 处 理 供应 
量 不 足 的 读 取 要 求 。 不 要 将 这 种 可 能 性 加 入 列表 1 


非 阻 挡 式 读 取 操 作 


有 时 ， 程 序 设计 者 并 不 想 让 对 read() 的 调用 在 尚 无 数据 可 用 时 受到 阻挡 。 他 们 宁可 
让 调用 立即 返回 ， 指 出 尚 无 数据 可 用 。 这 称 为 非 阻挡 式 TO ， 它 让 应 用 程序 可 以 在 不 受 
阻挡 的 情况 下 对 多 个 文件 进行 WO 操作 ， 但 是 会 因此 错过 另 一 个 文件 中 的 可 用 数据 ， 


因此 ， 值 得 检查 一 个 额外 的 errno 值 ，EAGAIN。 正 如 稍 早 所 讨论 的 ， 如 果 所 指定 的 
文件 摘 述 符 是 以 非 阻挡 模式 打开 的 (如果 调 用 open () 时 指定 了 0_NONBLOCK, 参见 
“open() 的 标志 ”) 而 且 可 供 读 取 的 数据 尚未 出 现 ， 则 reaa1f) 调用 会 返回 -1 并 将 
errno 设 定 为 EAGAIN 来 不 被 阻挡 (也 就 是 说 不 会 进入 休 有 卢 状 态 )。 进 行 非 阻 挡 式 读 
取 操 作 时 你 必须 检查 BaAGaAIN， 否 则 你 就 会 冒 着 “严重 错误 ”与 “只 是 缺乏 数据 ” 相 混 
清 的 风险 。 举 例 来 说 ， 你 可 能 会 使 用 如 下 的 程序 代码 


char buf [BUFSIZ]: 
号 号 工艺 局 七 Nr: 


start: 
nr = read (fd, buf, BUFSIZY).: 
if {nir = 一 1 { 
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if (errno == EINTR)} 
goto start; /* 蛾 |! 呈 !| */ 
if errno == EAGAIN) 


/* 稍 后 重 提交 */ 
Else 
j* 错误 */ 
} 
二 _ | 
.a 这 个 例子 中 处 理 EAGAIN 的 方法 如 果 使 用 gote start, 则 实际 没有 多 大 总 义 
yl 一 一 这 样 不 如 不 使 用 非 阻 断 式 IQ。 这么 做 根本 没有 节省 上 时间， 而 且 会 因为 循环 
三! 
”而 不 断 引 入 更 多 开销 。 


其 他 锐 误 值 
还 有 其 他 错误 码 用 来 表示 编程 错误 或 低级 问题 (例如 EIO)。read() 执行 失败 时 可 能 
会 设 定 的 errno 值 包括 : 


EBADF 
所 指定 的 文件 描述 符 无 效 或 者 未 打开 以 备 读 取 。 
EFAULT 
buf 所 提供 的 指针 并 非 指 向 进行 调用 进程 的 地 址 空间 范围 内 。 
EINVAL 
文件 的 述 符 被 映射 到 一 个 不 允许 读 取 操作 的 对 象 。 
EIO 
发 生 了 一 个 低级 的 WO 错误 。 


read() 的 字 市 数量 限制 


size_t 与 ssize_t 是 POSIX 所 规定 的 数据 类 型 。size_t 数据 类 型 所 存储 的 值 用 
于 度量 以 字 布 为 单位 的 数目 。ssize_t 数据 类 型 则 是 size_t 有 正 负 号 的 版 本 {人 负 值 
代表 错误 )。 在 32 位 的 系统 上 ，size_t 与 ssize_t 背后 的 C 数据 类 型 通常 分 别 是 
unsigned int 与 int。 因为 这 两 种 数据 类 型 通 篆 会 一 起 使 用 ， 所 以 范围 较 小 的 
ssize_t 会 对 size_t 的 范围 造成 限制 。 


size_t 的 最 大 值 是 SIZE_MAX, ssize_t 的 最 大 值 是 SSIZE_MAX。 如 果 len 的 值 
大 于 SSIZE_MAX, 则 read() 调用 的 结果 未 定义 ,在 多 数 Linux 系统 上 ,SSIZE_MAX 
就 是 LONG_MAX, 在 32 位 的 系统 上 ， 其 值 为 0x7fN7NN7。 对 一 次 读 取 操作 而 言 ， 这 是 个 
相当 大 的 数目 , 不 过 有 件 事 你 必须 铭记 在 心 。 如 果 你 把 前 面 的 读 取 循环 用 于 读 进 大 量 的 
数据 ， 你 可 能 会 想 进 行 下 面 的 操作 : 


击 


洪 
1 
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if {len » SSIZE_ MAX) 
len = SSIZE_MAX:; 


凋 用 read () 了 时， 如 果 将 len 设 为 0， 则 此 调用 会 立即 返回 0。 


以 write() 进行 写 入 操作 
进行 写 人 操作 时 ，write() 是 最 基本 和 最 常见 的 系统 调用 。write() 是 readf) 的 
反 加 操作， 而 且 也 定义 在 POSIX.1 中 : 


#incslude <uniatad.h> 


saize 七 write (int fd, conat void *buf, size t count)}; 


进行 write() 调用 , 就 会 从 buf 开始 将 count 个 字 节 写 人 fa 所 指定 文件 的 当前 文 
件 位 置 。 如 果 文 件 背 后 的 对 象 不 支持 查找 位 置 的 功能 (例如 字符 设备 )， 则 总 是 会 从 头 
(head) 写 起 。 


执行 成 功 时 ， 会 返回 所 写 人 的 字 节 数目 ， 并 以 同样 的 方式 更 新 文件 位 置 。 发 生 错 误 时 ， 
会 返回 -1 并 且 为 errno 设 定 适 当 的 值 .进行 writef) 调用 有 可 能 会 返回 0 这 个 值 ， 
但 是 这 个 返回 值 并 没有 任何 意义 ， 它 仅 意 味 着 被 写 和 人 了 0 个 字 节 ， 


如 同 read(),，write{) 也 有 最 基本 的 用 法 ， 


const Char *buf = "My Ship is soliqd!"; 
所 号 工艺 所 七 nr; 

/* 将 'buf' 里 的 字符 串 写 入 'fq' */ 

nr = write {fd, buf, strlen {buf}))}):; 

二 inr == -1 


/* 错误 */ 
但 同样 地 ， 和 read() 一 样 ,， 这 种 用 法 也 不 太 正 确 。 调 用 者 还 需要 检查 部 分 写 人 的 可 能 
性 ; 


unsigned long word = 1720; 
Size t count:; 
SS1lee_t nr:s 


COouUNnt = Slizeof (word): 
nr = write {fd, &word, count)}:; 
if {nr == -1) 

A 错误， 检查 errno */ 
else if {nr 1!= count) 


A/* 可 能 发 生 错误 ， 但 是 未 设 定 'errno' */ 
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部 分 写 入 

相 比 较 于 返回 部 分 读 取 结果 的 read () 系统 调用 ，write() 系统 调用 不 太 可 能 会 返 
回 部 分 写 人 的 结果 。 此 外 ，write() 系统 调用 也 不 会 遇 到 EOF 的 情况 。 就 第 规 文件 
而 言 ，write() 保证 能 够 完成 所 要 求 的 整个 写 人 人 操作， 除非 有 错误 发 生 。 


因此 ， 就 常规 文件 而 言 ， 你 并 不 需要 以 循环 来 进行 写 人 人 操作。 然而， 就 其 他 文件 类 型 来 
说 (例如 ，sockets)， 可 能 需要 使 用 循环 才 有 办 法 保证 实际 写 出 所 要 求 的 所 有 字 节 。 使 
用 循环 的 另 一 个 好 处 是 第 二 次 调用 write() 所 返回 的 错误 将 可 显示 是 何 原因 让 第 一 次 
调用 仪 写 入 部 分 宇 市 (但 是 ,同样 地 ， 此 情况 并 不 第 见 )。 下 面 古 一 个 例子 : 


S51iz6e. t ret, nr; 
while (len ls 0 && (ret = write (fd, buf, len}y} 1 = 0) 1{ 
if firet == -1} 1 
if (errno == EINTR) 
continue; 
perror ("write”"); 
break; 
] 
len -== ret; 
Buf += ret: 
} 
附加 模式 


如 果 以 附加 模式 打开 £6 (使 用 0_APPEND 标 志 }, 写 人 的 动作 并 不 会 发 生 在 文件 描述 符 
的 当前 文件 位 置 ， 而 会 发 生 在 当前 文件 的 末端 位 置 。 


符 例 来 说 , 假设 有 两 个 进程 对 同一 个 文件 进行 写 人 操作 。 不 使 用 附加 模式 时 ， 如果 第 一 
个 进程 将 字 市 写 和 文件 的 末端 , 然后 第 二 个 进程 进行 同样 的 操作 , 则 第 一 个 进程 的 文件 
位 壬 将 不 再 指向 文件 的 末端 ,而 会 指向 文件 的 末端 位 置 减 去 第 二 个 进程 所 写 和 的 字 节 数 
目 后 的 位 置 。 这 就 意味 着 , 在 没有 明确 采用 任何 同步 化 机 制 的 情况 下 , 不 可 以 有 多 个 进 
程 对 相同 的 文件 进行 附加 操作 ， 因 为 这 将 会 造成 竞争 条 件 。 


采用 附加 模式 可 避免 此 问题 。 它 可 以 确保 文件 位 置 总 是 被 设 定 为 文件 未 端 , 所 有 写 人 操 
作 总 是 附加 到 文件 末端 ,即使 存在 多 个 写 人 者 。 你 可 以 把 前 面 的 每 个 写 人 请 求 想 成 是 会 
对 文件 位 置 进行 不 可 分 割 的 更 新 ， 因 此 文件 位 置 会 被 更 新 成 刚才 所 写 人 的 字 节 的 末端 。 
这 与 下 一 个 write() 调用 无 关 , 因为 文件 位 置 的 更 新 是 自动 进行 的 , 但 是 如 果 因 为 某 
些 奇 怪 的 理由 而 让 下 一 个 调用 是 read (;} ， 那 么 可 能 就 无 法 置身 事 外 了 ，。 
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附加 模式 对 某 些 任务 (例如 更 新 日 志文 件 ) 而 言 可 能 意义 重大 , 但 是 对 许多 其 他 任务 而 
言 可 能 意义 不 大 。 


非 阻挡 式 写 入 操作 

如 果 以 非 阻挡 模式 打开 fa (使 用 0_NONBLOCK 标 志 ), 而 写 人 请 求 被 阻挡 , 则 write() 
系统 调用 会 返回 -1 且 errno 会 被 设 为 EAGAIN。 稍 后 应 该 再 送出 写 入 请 求 。 一 般 来 
说 ， 常 规 文件 并 不 会 发 生 此 情况 。 


其 他 错误 代码 


其 他 值得 注意 的 errno 值 包括 : 


EBADPF 
所 指定 的 文件 描述 符 无 效 或 者 未 打开 以 鱼 写 人 。 
EFAULT 
buf 所 提供 的 指针 并 非 指 向 进行 调用 进程 的 地 址 空间 范围 内 。 
EFBIG 
写 入 操作 所 产生 的 文件 大 小 超过 了 每 个 进程 文件 大 小 上 限 或 内 部 所 实施 的 限制 。 
EINVAL 
所 指定 的 文件 摘 述 符 被 映射 到 一 个 不 多 许 写 人 操作 的 对 象 。 
EIO 
发 生 了 一 个 低级 的 MO 错误 。 
ENOGSPC 
文件 系统 于 背后 所 指定 的 文件 描述 符 没 有 足够 的 空间 可 用 。 
EPIPEPE 
所 指定 的 文件 描述 符 关 联 到 读 取 端 已 经 关闭 的 pipe 或 socket。 此 时 ,进程 还 会 收 
到 SIGPIPE 信号 。SIGPIPE 信息 的 默认 行为 是 终止 站 到 信号 的 进程 。 因 此 ， 只 
有 在 进程 被 明确 要 求 去 忽略 、 阻 挡 或 处 理 SIGPIPE 信号 的 情况 下 ， 进 程 才 会 收 
到 此 errno 值 。 


write() 的 字 节 数量 限制 
如 果 count 参数 的 值 大 于 SSIZE_MAX， 则 write() 调用 的 结果 未 定义 。 


调用 writel) 时 ， 如 果 将 count 设 为 0， 则 此 调用 会 立即 返回 0 这 个 值 。 
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write() 的 行为 

从 write) 调用 返回 时 , 内核 已 经 将 缓冲 区 所 提供 的 数据 复制 到 内 核 的 缓冲 区 , 但 是 
无 法 保证 数据 已 经 写 出 到 其 预定 的 目的 地 。 的 确 ， 写 入 调用 返回 的 速度 实在 太 快 了 了， 可 
能 没有 时 间 完 成 读 项 工作 。 处 理 器 和 硬盘 之 问 的 性 能 差异 使 得 此 类 令 人 头痛 的 行为 显 而 
易 风 。 


事实 上 ， 如 果 用 户 空间 应 用 程序 发 出 write() 系统 调用 ，Linux 内 核 会 先进 行 若干 检 
查 ， 接 着 将 数据 复制 进 缓冲 区 。 稍 后 ， 内 核 会 在 后 台 收 集 所 有 “ 脏 ”( 有 数据 写 和 人) 组 
冲 区 (内 容 跟 相应 磁盘 块 不 同 的 所 有 缓冲 区 )， 将 它们 安排 成 最 佳 顺序 ， 接 着 写 进 磁盘 
(此 过 程 称 为 “ 写 回 ”writeback)。 这 让 写 入 调用 的 执行 可 以 快 如 闪电 ,几乎 立即 返回 。 
这 也 让 内 核 可 以 将 写 人 操作 延 后 到 较 空闲 的 时 段 再 进行 ,并 且 是 多 笔 写 入 操作 会 整 批 一 
起 进行 。 

延 后 进行 的 写 入 操作 并 不 会 改变 POSIX 的 语义 。 举 例 来 说 ， 数 据 刚 写 和 缓冲 区 而 尚未 
写 回 磁盘 ， 此 时 如 果 发 出 读 取 请 求 , 此 请 求 可 从 缓冲 区 得 到 满足 ， 而 且 不 会 因此 而 读 取 
到 磁盘 上 的 旧 数 据 。 此 行为 会 实际 提高 性 能 , 因为 读 取 请 求 可 从 内 存 中 的 缓存 区 得 到 油 
是 , 而 不 必 从 磁盘 。 当 读 取 和 写 入 请 求 如 预期 般 交 替 出 现时 , 结果 也 和 预期 一 样 一 一 也 
就 是 说 ,数据 被 写 回 磁盘 之 前 系统 不 会 崩溃 ! 即使 应 用 程序 相信 写 入 请 求 已 经 成 功 完成 
了 ， 但 事实 上 数据 尚未 写 回 磁盘 。 


延 后 写 信 的 另 一 个 问题 是 无 法 安排 写 人 顺序 。 尽 管 应 用 程序 可 能 会 安排 写 人 请 求 的 顺序 ， 
好 让 它们 能 够 按照 特定 的 顺序 写 回 磁盘 ,内核 会 以 它 认为 合适 的 方式 重新 安排 写 人 请 求 
的 顺序 ， 主 要 是 基于 性 能 的 葵 虑 。 除 非 系 统 崩溃， 否则 这 通常 不 是 一 个 问题 ， 因 为 所 有 
缓冲 区 最 后 都 会 写 回 磁盘 ， 所 以 一 切 都 很 好 。 即 使 如 此 , 绝 大 多 数 的 应 用 程序 实际 上 并 
不 关心 写 人 请 求 的 顺序 。 


延迟 写 人 必须 探讨 的 最 后 一 个 问题 是 汇报 [MO 错误 。 写 回 磁盘 期 间 可 能 会 发 生 任 何 无 法 
向 发 出 写 人 人 请求 的 进程 汇报 的 LO 错误 例如 磁盘 驱动 器 故障 。 的 确 ， 缓 冲 区 与 这 
些 进 程 剖 无 关系 。 假 如 有 多 个 进程 “型 脏 ”( 将 数据 写 人 ) 单一 缓 促 区 ， 而 这 些 进 程 可 
能 在 数据 写 人 缓冲 区 之 后 并 且 在 数据 写 回 磁盘 之 前 先 结束 了 。 此外, 你 如 何在 事后 与 写 
入 失败 的 进程 通信 ? 





内 核 会 试图 尽量 降低 延 后 写 人 的 风险 。 为 了 确保 数据 可 以 被 及 时 写 出 , 内 核 为 缓冲 区 设 
立 了 一 个 时 间 上 限 (maximum buffer age), 而且 会 在 时 间 超 过 上 限 之 前 写 出 所 有 “ 脏 ” 
{有 数据 写 入 ) 缓 冲 区 ,用 户 可 通过 /proc/sys/vmydirty_expire_centiseconds 来 设 定 此 值 ， 
此 值 以 厘 秒 (centisecond， 百 分 之 一 秒 ) 为 单位 。 
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你 还 可 以 针对 特定 文件 缓冲 区 的 写 回 操作 甚至 所 有 的 写 入 操作 进行 同步 这些 主题 会 在 
下 一 节 “ 同 步 化 WOQ” 中 加 以 讨论 。 
本 章 稍 后 会 在 “内 核 内 部 ”一 节 深 入 探讨 Linux 内 核 的 缓冲 区 写 回 子 系统 (buffer 


writeback subsystem ) 。 


同步 化 /0 

尽管 /0 的 同步 化 是 一 个 重要 的 主题 , 但 是 也 不 应 该 回避 延 后 写 人 的 相关 问题 。 写 人 操 
作 的 缓冲 机 制 大 大 提升 了 系统 的 性 能 ,因此 任何 操作 系统 都 应 读经 缓冲 机 制 来 实现 延 后 
写 入 功能 。 然 而 , 有 些 时 候 应 用 程序 可 能 会 想 控 制 何 时 可 以 把 数据 写 回 磁盘 。 在 此 情况 
下 ，Linux 内 核 提供 了 若干 选项 ， 让 你 可 以 进行 同步 化 操作 。 


fsync() 与 fdatasync() 
确保 数据 能 够 写 回 磁盘 的 最 简单 方法 就 是 使 用 POSIX.1b 所 定义 的 fsync () 系统 调 
用 : 

#include <unistd.h> 

int faynec (int fd}:; 
调用 fsync () 可 确保 文件 描述 符 fa 所 映射 的 文件 中 所 有 胜 数 据 会 被 写 回 磁盘 。 文 件 
接 述 符 £9 必须 被 打开 以 备 写 人 。 此 凋 用 会 与 回 数 据 和 元 数据 ， 例 如 文件 创建 的 时 间 蕉 
以 及 inode 中 所 包含 的 其 他 属性 。 此 调用 会 一 直 等 到 硬盘 汇报 数据 与 元 数据 已 经 写 回 磁 
盘 才 返回 。 


在 硬盘 具有 写 人 缓存 区 (write cache) 的 情况 下 ，fsync() 不 可 能 知道 数据 是 否 真 的 
已 经 位 于 磁盘 上 ,尽管 硬盘 汇报 数据 已 经 写 回 ,但 是 数据 实际 上 仍 在 硬盘 的 写 和 人 人 缓存 区 。 
所 下 的 是 ， 硬 盘 缓 存 区 里 的 数据 应 该 会 被 了 并 即 交 付 给 磁盘 。 


Linux 还 提供 了 fdatasync{) 系统 调用 : 


#include <unistd.h> 


int fdatagsvync (int fq); 


此 系统 幸 用 和 fsync () 的 行为 一 样 ， 但 是 它 只 会 刷新 数据 (flush data) 。 此 调用 无 法 
你 证 元 数据 与 磁盘 古 同 步 的 ， 因 此 速度 可 能 会 更 快 。 通 常 这 样 就 够 了 ， 


这 两 个 国 数 的 用 法 都 一 样 ， 很 简单 : 
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int ret; 
ret fFsync (fda}; 
if (ret == -1) 


,二 于 性 ， 
+* 钳 医 *， 


这 两 个 函数 均 无 法 保证 包含 文件 的 目录 项 如 果 有 任何 变动 都 能 够 与 磁盘 同步 化 。; ss 
着 ， 如 采 一 个 文件 的 链接 最 近 有 所 变动 ， 则 尽管 文件 的 数据 已 经 成 功 写 回 磁盘 , 但 在 

关 的 目录 项 或 许 还 没有 , 这 可 能 会 导致 无 法 取得 文件 。 为 NT 
够 写 回 磁盘 ,必须 针对 目录 本 身 (打开 目录 以 便 取 得 它 的 文件 描述 符 ) 调用 fsync ()。 


返回 值 与 错误 代码 
执行 成 功 时 ， 这 两 个 调用 都 会 返回 0 ， 执 行 失败 时 ， 这 两 个 调用 都 会 返回 -1 并 且 将 
errno 的 值 设 定 为 下 面 的 其 中 一 个 : 


EBADF 
所 指定 的 文件 描述 符 无 效 或 者 未 打开 以 备 写 人 。 
EINVAL 
所 指定 的 文件 描述 符 被 映射 到 一 个 不 支持 同步 化 机 制 的 对 家 。 
EIO 
同步 化 期 间 发 生 了 一 个 低级 的 1O 错误 。 这 呈现 了 一 个 真正 的 WO 错误 ， 而 且 通 
常 是 在 能 够 捕 蓝 到 此 类 错误 的 地 方 。 


当前 ， 调 用 fsync1{) to 失败 ， 因 为 背后 的 文件 系统 可 能 并 未 实现 fsync ()， 即 
使 它 实 现 了 0 ， 如 果 fsync{) 返 回 EINVAL， 有 此 疑虑 的 应 用 程序 可 
能 会 想 尝试 fdatasync{)。 例 如 : 


it (fsynce (fd) == -1) {+ 
上 定 
* 我 们 仿 好 fsync (1)， 但 是 如 果 fsync() 失败 了 了 ， 
* 让 我 们 试 试 fdatLasynct{)。 


击 了 了 
用 


if (terrno == EINYVAL)} 1 
if ifdatasync (fd) = 三山 
perror lI"fdatasync"}; 
1 名 1 Se 
DEerror ("fesynce"); 
1 


因为 POSIX 需要 fsynclt)， 面 fdatasync1) 只 是 个 和 选项， 所 以 任何 一 般 的 Linux 


文件 系统 通常 应 该 实现 fsync1) 系统 调用 。 然 而 ， 旧 的 文件 类 型 (或 许 没 有 元 数据 需 
要 同步 ) WD OB I Faat a Sm ) 。 
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sync() 
虽然 不 是 最 理想 的 ， 但 是 应 用 范围 较 广 的 sync () 系统 调用 可 让 所 有 缓冲 区 与 磁盘 同 
步 化 ; 

#include <unigstd.h> 


Voiqgd gvync (voigd); 


此 函数 不 需要 参数 ， 也 没有 返回 值 ， 它 总 是 能 成 功 并 且 返 回 ， 所 有 的 缓 种 区 【和 包括 数据 
和 元 数据 ) 保证 都 会 写 回 磁 托 ( 注 3)。 


标准 并 没有 要 求 sync () 必须 等 到 所 有 缓冲 区 全 都 被 清空 到 磁盘 才 和 返回， 标准 只 要 求 
该 调用 启动 将 所 有 缓冲 区 交付 给 磁盘 的 进程 。 基 于 这 个 原因 , 标准 通常 建议 进行 多 次 同 
步 化 ， 以 确保 所 有 数据 都 已 交付 给 磁盘 。 然 而 ，Linux 会 一 直 等 到 所 有 缓冲 区 都 被 交付 
为 止 。 因 此 ， 调 用 一 次 synic () 就 够 了 ，。 


sync() 的 唯一 占用 就 是 实现 sync(8) 实用 程序 。 应 用 程序 应 该 使 用 fsync() 与 
fdatasyrnc() 将 必要 的 文件 描述 符 的 数据 提交 给 磁盘 。 注 意 ， 在 忙碌 的 系统 中 ， 
syncl) 溃 能 需要 花 几 分 钟 的 时 间 才 会 完成 。 


O_SYNC 标志 
将 0_SYNC 标志 传递 给 open1) 表示 文件 的 所 有 LO 都 需要 同步 化 : 
int fd; 


fd = open {file, C WRONLY | 0O_SYNC):; 
iL (£9 : -1]) 1 
Perror ("open"): 
return -|: 
读 取 请 求 通常 需要 同步 化 , 否则 将 无 法 得 知 缓冲 区 中 供 读 取 的 数据 是 否 正确 。 然而, 如 
先前 所 述 , write() 调用 通常 不 需要 同步 。 从 此 调用 返回 与 数据 是 否 已 提交 给 磁盘 并 
无 关系 。D_SYNC 标志 可 用 来 建立 此 关系 ,确保 write() 调用 会 执行 VO 的 同步 化 。 


0_SYNC 的 功能 是 : 每 次 write() 调用 之 后 以 及 从 调用 返回 之 前 隐 式 (implicit) 调 
用 fsync()。 然 而 ，Linux 内 核 所 实现 的 0_sYNC 的 效率 更 高 一 点 。 


注 3: 如 同 之 前 所 警告 的 : 三 瘟 可 能 会 关 鸡 内 核 继 冲 区 已 经 写 回 磁盘 ， 然而 它们 实 际 仍 位 于 磋 
蔓 的 钱 存 区 ， 
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0_SYNC 会 让 写 人 操作 的 用 户 时 间 与 内 核 时 间 ( 分 别 代表 在 用 户 空间 与 内 核 空 间 中 所 伦 
的 时 间 ) 略微 变 差 。 此 外 ,这 取决 于 被 写 和 人 文件 的 天 小 , DO_SYNC 可 能 会 由 于 此 过 程 所 
导致 的 所 有 LO 等待 时 间 (等 待 VO 完成 所 花 的 时 间 ) 而 让 总 耗费 时 间 《total elapsed 
time ) 增加 一 个 或 两 个 数量 级 。 这 会 增加 巨大 的 成 本 ， 所 以 除非 不 得 已 ,否则 最 好 不 要 
使 用 同步 化 MO。 


通常 ， 应 用 程序 需要 使 用 fsync() 或 fdatasync() 来 保证 写 入 操作 已 经 将 数据 写 
回 磁盘 。 相 比较 于 0_SYNC, 这 么 做 的 成 本 较 低 ,因为 它们 被 调用 的 机 会 比较 少 (例如 
只 在 某 些 关键 操作 完成 之 后 )。 


O_DSYNC 与 O_RSYNC 


POSIX 定义 了 另外 两 个 与 同步 化 MO 相关 的 open () 标志 : 0Q_DSYNC 与 O_RSYNC 。 
在 Linux 中 ， 这 两 个 标志 被 定义 成 0_SYNC 的 同 闵 词 ， 它 们 的 行为 也 - 样 。 


0_DSYNC 标志 指定 每 次 写 入 操作 之 后 只 有 一 般 数据 需要 同步 化 ， 不 包括 元 数据 。 你 可 
以 把 它 想 成 这 会 导致 每 次 写 人 请 求 之 后 隐 式 调用 faatasync(}。 因 为 G_SYNC 提供 
了 有 利 的 保证 ， 所 以 即使 没有 显 式 支持 D_DSYNC， 也 不 会 有 功能 丧失 , 在 0_SYNC 所 
提供 的 有 利 规定 下 ， 仅 会 有 潜在 的 性 能 损失 ， 


0O_RSYNC 标志 指定 污 取 请 求 以 及 写 入 请 求 皆 需要 同步 化 。 它 必须 从 0O_SYNC 或 
0_DSYNC 择 一 使 用 。 如 稍 早 所 述 ， 读 取 操 作 已 经 被 同步 化 了 一 一 它们 不 会 慢 回 ， 除 
非 它们 能 够 将 数据 提供 给 用 户 。D_RSYNC 标志 规定 读 取 操作 的 任何 副作用 也 需要 同步 
化 。 这 意味 着 ， 读 取 损 作 所 造成 的 元 数据 变动 也 必须 在 从 调用 返回 之 前 写 入 磁盘 。 有 具体 
而 言 ， 这 项 规定 最 有 可 能 的 应 用 是 从 read1() 调用 返回 之 前 必须 更 新 inode 位 十 磁盘 
上 的 副本 文件 的 访问 时 间 。Linux 将 D_RSYNC 定义 成 和 0_SYNC 一 样 , 虽然 这 么 做 的 
意义 不 大 (OQ_RSYNC 与 0_SYNC 之 间 并 不 存在 D_SYNC 与 0_DSYNC 之 间 的 关系 )。 
在 Linux 中 ， 目 前 并 没有 办 法 获得 0_RSYNC 的 行为 ， 开 发 者 所 能 获得 的 最 接近 的 行 
为 是 在 每 次 zead() 调用 之 后 调用 fdatasyncf)。 但 是 需要 用 到 此 行为 的 场合 并 
不 多 。 


直接 MO 

Linux 肉 棱 ， 如 同 任 何 现代 的 操作 系统 内 核 一 样 ， 为 设备 与 应 用 程序 之 间 的 组 存 机 制 、 
组 种 机 制 以 及 LO 管理 实现 了 一 个 复杂 的 架构 层 【 参 见 本 章 结 尾 的 “内 核 内 部 ”一 节 )。 
性 能 高 的 应 用 程序 可 能 会 想 绕 过 复杂 的 层次 结构 来 进行 自己 的 VO 管理。 然而， 实现 自 
己 的 IO 系统 通常 并 不 值得 , 事实 上 ， 相 比较 于 应 用 程序 层 所 提供 的 工具 ,操作 系统 层 
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所 提供 的 工具 更 有 可 能 达到 较 佳 的 性 能 。 然 而, 数据 库 系 统 通 常 更 区 欢 使 用 目 己 的 组 企 
机 制 ， 并 希望 尽量 减少 操作 系统 在 场 的 机 会 。 


提供 0_DIRECT 标 志 给 open() 可 指示 内 核 尽量 减少 BO 管理 在 场 的 机 会 。 提 供 此 标 
志 时 ， 会 绕 过 页 向 缓存 (page cache) 直接 启动 用 户 空 间 缓 站 | 与 设备 之 辐 的 W100。 所 
有 VO 将 会 同步 ， 直到 操作 成 后 才 会 遂 叫 。 


执行 直接 MO 时 , 请 求 的 长 度 . 组 冲 区 的 凋 整 以 及 文件 的 篇 移 量 邦 必须 证 上 履 层 设备 的 属 
区 大 小 (通常 就 起 512 字 节 ) 的 整数 倍 。 就 Linux 内 核 2.6 之 前 的 版 本 而 言 ， 此 项 规定 
更 为 严格 : 在 2.4 版 中 ,，-- 切 者 必须 调整 成 文件 系统 逻辑 快 的 大 小 【通常 是 4 KB)i。 为 
六 维持 兼容 性 ， 应 用 程序 应 该 将 其 调整 成 较 大 (而 且 可 能 较为 不 使 ) 的 记 辑 块 大 小 。 


关闭 文 件 
当 程 序 用 完 文 件 描述 符 之 后 , 它 可 以 经 close (1) 系统 调用 取消 交 件 撒 束 符 与 相关 螨 文 
件 鸭 上 映 肌 关系 : 


#include <unistd.h»> 


int close {int fad}; 


调用 close(}) 可 以 取消 已 打开 交 件 括 述 符 fa 的 映射 关系 , 以 及 让 进程 与 相关 联 文 件 : 
分 离 。 然 后 所 指定 的 文件 摘 述 符 不 髓 有 效 ， 于 是 ee 让 和 它 再 次 成 为 后 续 
open() 或 creat {) 调 几 的 返回 值 。closef) 调用 会 在 执行 成 功 时 返回 0D， 以 及 人 在 
发 生 错 误 时 返回 -1 并 且 为 errno 设 定 送 a 民 的 用 法 很 简单 : 
if (tclose (fd) -1) 
Derroar ("Close"}:; 

请 注 臣 ， 寿 交 件 已 被 刷新 到 位 盘 ， 关 团 交 件 的 动作 将 毫 无 作用 。 如 采 应 用 程序 想 在 关闭 
交 件 之 十 将 文件 提交 给 磁盘 ， 那么 它 需 要 利用 和 星 在 “同步 化 WO 一 市 中 所 讨论 到 的 
其 中 一 个 同步 化 选项 。 


六 件 的 关 半 会 产生 有 十 副作用 。 当 引 川 到 文件 的 最 后 一 个 已 打开 的 文件 描述 符 被 其 
] 时 ， 内 核 内 部 表 朱 该 文件 的 数据 结构 会 被 释放 。 当 此 数据 结构 被 释放 时 ， 与 该 文件 相 
a inode 在 内 存 中 的 副本 号 会 被 移 除 。 如 果 内 存 中 忆 万 该 inode 的 副本 ， 该 inode 
也 会 从 内 存 中 被 释放 (内核 为 了 性 能 的 原 轩 将 该 inode 放 在 缓存 中 , 但 是 已 无 此 需要 )。 
如 采 你 从 磁盘 解除 :个 文件 的 链接 ,位 是 在 解除 该 文件 的 链接 之 前 它 仍 旧 维 持 打 开 的 状 
态 , 则 它 实 际 上 并 不 会 被 移 除 , 除非 它 被 关闭 并 日 它 的 inode 已 从 内 存 中 被 移 除 . 因此 ， 
调用 close(} 可 能 还 会 造成 一 个 已 解除 链接 的 文件 最 后 被 实际 从 磁盘 移 除 的 情况 。 
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二 
背 误 值 
常见 的 错误 就 是 没有 检查 close () 的 返回 值 。 这 可 能 会 导致 错过 关键 错误 的 情况 ， 因 


为 与 延 后 操作 有 关 的 错误 稍 晚 才 会 出 现 ， 而 close () 会 予以 汇报 。 


失败 时 的 errno 值 有 几 种 可 能 性 。 除 了 EBaDF (给 定 的 文件 描述 得 无 效 )， 最 重要 的 
错误 值 是 ETO (指出 可 能 发 生 了 与 实际 关闭 动作 无 关 的 低级 VO 错误 )。 无 论 汇 报 的 十 
何 种 错误 ， 只 本 文件 描述 符 是 有 效 的 , 它 总 是 会 被 关闭 ， 而 且 相 应 的 数据 结构 也 会 饼 释 
放 。 


尽管 POSTX 企 许 ， 但 是 closet{) 绝对 不 会 返回 EINTR, linux 内 棱 开 皮 者 对 此 有 更 
深入 的 了 解 一 一 这 不 是 一 个 聪明 的 实现 。 


使 用 lseek() 查找 文件 位 置 


一 般 而 言 ，UO 是 通过 一 个 文件 线性 进行 的 ， 这 意味 着 ， 所 有 需要 查找 文件 位 置 的 读 取 
和 写 人 操作 会 导致 文件 位 置 的 变更 。 然 而 ， 某 些 应 用 程序 需要 在 文件 中 来 回 跳跃 。 于 和 是 
提供 了 lseek() 系统 调用 ， 通 过 它 可 将 一 个 文件 描述 符 的 文件 位 置 设 定 为 指定 的 恒 。 
除了 改变 文件 的 位 置 ， 它 不 会 执行 其 他 动作 ， 也 不 会 司 动 任何 W/O: 


#include <sys/types.h> 
#include <unistd.h> 


off 七 lseek (int fd, off 七 pos, int origin); 
lseek{) 的 行为 取决 于 origin 参数 ， 此 参数 值 可 以 是 下 面 的 其 中 之 一 : 


SEEK_CUR 
fa 的 当前 文件 位 置 会 被 设 定 为 它 的 当前 值 加 上 pos (其 值 可 以 是 负数 、 零 或 正 
数 )。pos 的 值 为 零 时 ， 返 回 的 是 当前 的 文件 位 置 值 。 


SEEK_END 
fa 的 当前 文件 位 置 会 被 设 定 为 文件 的 当前 长 度 加 上 pos (其 值 可 以 是 人 负数 、 等 或 
正 数 )。pos 的 值 为 零 时 ， 偏 移 值 (offset) 会 被 设 定 为 文件 的 末端 。 
SEERK_SET 
fa 的 当前 文件 位 置 会 被 设 定 为 pos。pos 的 值 为 零 时 ， 偏 移 值 会 被 设 定 为 文件 
的 开头 。 
此 调用 执行 成 功 时 ， 会 返回 新 的 文件 位 置 ， 执 行 错误 时 ， 会 返回 -1 并 且 将 errno 这 
定 为 适当 值 。 


-kh 


|! 
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例如 ， 你 可 以 将 fa 的 文件 位 置 设 定 为 1825 : 
off t ret; 


ret 三 lS8eek (fd, (off ty l825, SEEK SET}): 
lf {ret = (of tt) -了 | 
+ 错误 *) 


也 可 以 将 f3 的 文件 位 置 设 为 文件 采 末 师 : 
off t ret; 


ret = laseek tifd, 0, SEERK_END); 
if {ret == (Off _t} =) 
A 错误 
因为 1seek() 会 返回 变更 后 的 文件 位 置 ,所 以 可 以 通过 将 SEEK_CUR 设 为 地 的 方 去 ， 
使 用 它 来 找到 当前 的 文件 位 置 


int Pos; 


Ecs = lseek ifd, 0, SEEK_CUR):; 
if, thos se (orf kt <1 
/* 错误 */ 
会 1 Se 
” 'Bos' 是 fq 的 当前 位 置 */ 
到 目前 为 止 ，1seek1() 最 常见 的 用 法 就 是 找到 文件 的 开头 、 找 到 文件 的 末端 或 者 判定 
一 个 文件 搞 述 符 的 当前 文件 位 音 。 


查找 文件 末端 之 后 的 位 置 
你 可 以 要 求 1seek() 将 文件 指针 推进 到 文件 末端 之 后 的 位 置 。 例 如 , 正面 的 程序 代码 
会 将 指针 从 fq 所 映射 的 文件 的 末端 推进 1,688 个 字 市 : 

int ret: 

ret = lseek (fd, toff t} 16588, SEEK_END}:; 

if tret 三 = {Off t} =1) 

A 错误 */ 

就 其 本 身 而 言 ， 将 文件 指针 推进 到 文件 末端 之 后 的 位 置 事实 上 什么 也 设 做 一 一 对 刚 创 
建 的 文件 位 置 进行 读 取 操作 将 返回 EOF。 然而 , 如 和 朱 随 后 对 此 位 置 进 行 写 人 操作 , 则 会 
在 文件 的 旧 长 度 与 新 长 度 之 间 创 建新 的 空间 ， 而 且 会 以 去 来 填补 它 。 


这 个 用 零 填补 的 空间 称 为 空洞 (hole)。 在 Unix 风格 的 文件 系统 中 , 空洞 并 不 占用 任何 
物理 磁盘 空间 。 这 意味 着 , 文件 系统 上 所 有 文件 的 尺寸 加 起 来 可 能 会 超过 磁盘 的 实际 大 
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小 。 具 有 空洞 的 文件 称 为 稀 朴 文件 (sparse file)。 稀 政文 件 可 以 节省 非常 可 观 的 空间 并 
增强 性 能 ， 因 为 操作 空洞 并 不 需要 局 动 任何 实体 的 MO。 


读 取 一 个 文件 的 空洞 部 分 时 会 返回 适当 数量 的 二 进 制 零 值 。 


错误 值 


发 生 错误 时 ，1lseek 1() 会 返回 -1 并 且 将 errno 设 定 为 下 面 的 其 中 一 个 值 : 


EBADF 
指定 的 文件 描述 符 并 未 引用 一 个 已 打开 的 文件 描述 符 。 

EINVAL 
为 origin 指定 的 值 并 非 SEEK_5SET、SEEK_CUR、SEEK_END 其 中 之 一 , 或 
者 由 此 找到 的 文件 位 置 为 人 负数。 事实 上 ,使 用 EINVAL 来 表示 这 岗 种 名 误 并 不 合 
适 。 前 者 几乎 就 是 一 个 编译 时 的 编程 错误 , 而 后 者 则 代表 比较 诡异 的 运行 时 的 多 和 辑 
错误 。 

EOVERFLOW 
所 产生 的 文件 偏 移 值 无 法 使 用 off_t 来 表示 。 这 只 会 发 生 在 32 位 架构 上 。 然 而 
文件 位 置 仍 会 被 更 新 ， 此 错误 只 是 表示 文件 位 置 无 法 被 返回 而 已 。 

ESPIPE 
所 指定 的 文件 描述 符 被 关联 到 一 个 无 法 查找 位 置 的 对 象 , 例如 管道 (pipe)、FIFO 


或 socket 。 


限制 

文件 位 置 的 最 大 值 受 限于 off_t 数据 类 型 本 身 的 大 小 。 多 数 机 器 架构 会 将 此 定义 为 C 
的 1ong 数据 类 型 ， 而 在 Linux 上 这 通常 是 字 长 (word size， 通 常 就 是 机 器 的 一 般 用 
途 寄 存 器 的 大 小 )。 然 而 ， 内 核 在 内 部 会 使 用 C 的 long long 数据 类 型 来 存储 偏 移 
值 。 这 并 不 会 对 64 位 机 堪 构 成 问题 ， 但 是 这 意味 着 ，32 位 机 器 在 查找 文件 位 置 时 可 
能 会 产生 EOVERFLOW 名 误 。 


一 /一 一 人 FP 
针对 特定 位 置 的 读 取 与 写 入 
基于 lseek() 的 使 用 , Linux 提供 了 read() 和 write() 系统 调用 的 两 种 变 体 , 它 
们 会 以 文件 位 置 为 参数 分 别 进行 读 取 与 写 人 。 操作 完成 之 后 , 它们 并 不 会 改变 文件 的 位 
置 。 


56 第 二 章 


污 取 的 形式 称 为 pread1!): 
#define XOPFEN SOURCE S00 
#include <unigtdqd.h> 


sgsize t pread (int £f4, void *buf, size 七 count, off 七 pos): 
此 调用 会 从 文件 摘 述 符 fa 的 文件 位 置 pos 读 取 count 小字 市 到 buf。 


写 人 的 形式 称 为 pwrite()， 
#define XOPEN _ SOURCE 500 
#include <UT ISO.hy> 


98ize t pwrite lint fd, COmSBt void *buf, size 七 count, off 七 pos)} 
此 调用 会 将 count 个 字 节 从 buf 写 入 文件 描述 符 fd 的 文件 位 置 pos。 


这 两 个 调用 的 行为 与 它们 的 non-p ( 非 针 对 特定 位 置 的 ) 版 本 几乎 相同 ,除了 它们 会 
完全 忽略 当前 的 文件 位 置 。 它 们 不 使 用 当前 的 位 置 , 而 使 用 pos 所 提供 的 值 。 此 外 , 它 
们 不 会 改变 文件 的 位 置 。 换 言 之 ， 任 何 摊 杂 其 中 的 read1) 和 write() 调用 都 可 能 
会 破坏 针对 特定 位 置 的 调用 (positional call) 所 完成 的 工作 。 


这 两 个 针对 特定 位 置 的 调用 只 能 用 于 可 查找 位 置 的 文件 描述 符 (seekable file 
descriptor)。 它 们 所 失 供 拘 语 你 类 似 于 在 调用 read() 或 write() 之 前 先 调 用 
lseek(), 但 是 有 三 点 不 同 。 第 一 点 , 这 两 个 调用 更 容易 使 用 , 特别 是 在 进行 需要 技巧 
的 操作 时 , 例如 要 向 后 或 随机 移动 文件 ,第 二 点 ,它们 在 完成 工作 后 不 会 改变 文件 指针 。 
最 后 且 最 重要 的 一 点 , 它们 可 以 避免 使 用 lseek1() 时 可 能 造成 的 竞争 条 件 。 如 果 有 多 
个 线程 共享 文件 描述 符 ， 当 第 一 个 线程 调用 1seek1() 之 后 , 在 它 进行 读 取 或 写 人 操作 
之 前 ， 同 一 个 程序 中 的 另 一 个 线程 可 能 会 改变 文件 的 位 置 。 使 用 pread() 和 
pwrite() 可 避免 此 类 竞争 条 件 。 


彰 误 值 

执行 成 功 时 ， 这 两 个 调用 会 分 别 返 回 所 读 取 或 写 人 的 字 节 数 和 目 。 当 pread() 的 返回 
值 为 零 时 代表 EOF， 当 pwrite() 的 返回 值 为 0 时 表示 该 调用 并 未 写 人 任何 字 节 。 
发 生 鲁 必 时 ， 这 两 个 调 用 都 会 返回 -1 并 且 将 errno 设 定 为 适当 值 。 就 pread1{) 而 
言 ， 此 值 可 以 是 read() 或 1seek() 的 任何 有 效 errno 值 ; 就 pwritel) 而 言 ， 
此 值 可 以 是 write() 或 1seek() 的 任何 有 效 errnoc 值 。 
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截 短 文件 
Linux 提供 了 两 个 系统 调用 用 来 截 短 一 个 文件 的 长 度 ， 它 们 是 各 项 POSIX 标准 (在 不 
同 程度 上 ) 所 定义 和 规定 的 系统 调用 。 它 们 是 : 


#include <unistd.h» 
#include gvya/typegs.h> 


int ftruncate (int fd, off 七 len}):; 


AT 


#include <UDIL Bt 号 .hy 
#include sya/typegs.hy 


int truncate {const char *path, off +t len); 
这 两 个 系统 调用 会 将 指定 的 文件 截 短 成 jen 所 指定 的 长 度 。ftruncate() 系统 调用 
可 用 于 处 理 Ea 所 指定 的 文件 摘 述 符 ， 而 且 该 文件 描述 符 必 须 被 打开 以 备 写 人 人。 
truncate() 系统 调用 可 用 于 操作 path 所 指定 的 文件 ,而且 该 文件 必须 是 可 写 入 的。 
执行 成 功 时 , 这 两 个 调用 都 会 返回 0; 发 生 错误 时 , 它们 都 会 返回 -1 并 且 会 将 errno 
设 定 为 适当 的 值 。 
这 两 个 系统 调用 的 最 第 见 用 法 就 是 将 一 个 文件 的 大 小 删 减 成 比 当前 长 度 短 ,成 功 返 回 后 ， 
文件 的 新 长 度 为 1 en。 先前 存在 于 len 与 旧 长 度 之 间 的 数据 会 被 丢弃 ， 所 以 再 也 无 法 
锌 读 取 请 求 所 访 回 。 
这 两 个 国 数 可 用 于 将 一 个 文件 “ 截 得” 成 较 大 的 尺寸 , 这 类 似 于 “查找 文件 末端 之 后 的 
位 置 ” 一 市 所 提 到 的 查找 操作 与 写 入 操作 的 组 合 。 所 扩 增 的 字 节 会 被 填 入 零 。 
这 两 项 操作 都 不 会 改变 当前 文件 的 位 置 。 
举例 来 说 ,假设 长 度 为 74 个 字 节 的 文件 pirare.ixt 有 下 面 的 内 容 : 


Edward Teach was a notorious English pirate. 
He was nicknamed Blackbeard. 


从 同一 个 目录 运行 下 面 的 程序 : 


#inceclude <Uunistd.hs 
+#include <stdic.hs 


int maini) 


疗 
守 
\ 


二 


fe 一 


ret = truncate (",. /pirate.txt", 45); 
it (ret == = { 
perror ("truncate"y; 


return -1; 


1 


Teturn Qs: 


} 
结果 会 产生 长 度 为 45 个 字 节 的 有 如 下 内 容 的 pirate.txi 文件 : 


Edward Teach was a notorious English pirate., 


多 任务 式 MO 


应 用 程序 通常 需要 服务 一 个 以 上 的 文件 描述 符 ， 反 复 地 与 键盘 输入 (sidin)、 进 程 间 通 
信 以 及 若干 文件 进行 IO 。 现代 的 事件 驱动 (event-driven) 图 形 用 户 界面 (graphical user 
interface， 简 称 GUI) 应 用 程序 可 通过 其 mainloop 〈 主 循环 ) 来 处 理 数 以 自 计 的 待 解 
决 事件 〈 广 4)。 


不 惜 助 线程 , 基本 上 就 是 分 开 服务 每 个 文件 描述 符 , 单一 进程 无 法 在 同一 时 间 服 务 一 个 
以 上 的 文件 描述 符 。 只 要 每 个 所 要 服务 的 文件 描述 符 随时 都 可 以 被 读 取 或 写 人 ,网 能 够 
把 多 个 文件 描述 符 处 理 得 很 好 。 但 是 一 遇 到 尚未 准备 好 的 文件 摘 述 符 ( 誉 例 来 说 ， 如 二 
进行 read() 系统 调用 时 数据 尚未 就 绪 )， 进 程 将 受到 阻挡 ,不 再 能 够 服务 其 他 的 文件 
描述 符 。 进程 可 能 只 会 受阻 几 秒 钟 的 时 间 , 而 让 应 用 程序 的 效率 变 低 并 困扰 用 户 。 然 而 ， 
如 果 该 文件 描述 符 之 上 一 直 都 没有 出 现 可 用 的 数据 , 则 进程 就 会 永远 受到 阻 描 。 因为 各 
个 文件 描述 符 的 1O 往往 都 是 相互 关联 的 , 例如 管道 , 所 以 极 有 可 能 会 出 现 一 个 文件 拍 
述 符 是 否 就 绪 取 决 于 另 一 个 文件 描述 符 是 否 被 服务 过 的 情况 。 尤 其 是 网 络 应 用 程序 , 可 
能 会 同时 打开 许多 socket， 这 可 能 会 导致 不 少 辣 题 。 


假设 被 一 个 与 进程 间 通 信 有 关 的 文件 描述 符 阻挡 时 sidin 有 数据 待 处 理 。IPC 文件 摘 述 
符 返 回 数据 之 前 ， 应 用 程序 并 不 知道 键盘 输入 有 数据 待 处 理 一 一 但是， 如 果 受 阻挡 的 
操作 从 不 返回 呢 ?. 


本 章 稍 早 所 讨论 的 非 阻挡 起 IO 可 作为 此 问题 的 一 个 解决 方案 。 使 用 非 阻挡 式 1O， 应 
用 程序 可 以 发 出 能 够 返回 错误 信息 的 VO 请 求 而 不 会 受到 阻挡 。 然 而 , 此 解决 方案 的 效 
率 并 不 高 , 这 有 两 个 原因 。 首先， 进程 需要 不 断 以 任意 顺序 发 出 VO 请 求 ， 一 直 等 到 其 


汉 44: 关于 mainloop, 写 过 GUI 应 用 程序 的 人 应 该 很 扑 上 一 一 例如 ,ONOME 应 用 程序 需要 
用 到 其 基础 链接 库 GLib 所 提供 的 mainloop ( 主 稿 环 )。 通过 mainloop， 我 们 可 以 查看 
多 个 事件 以 及 响应 单一 断 点 。 
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所 打开 的 文件 描述 符 中 已 经 出 现 可 以 进行 WO 者 。 这 是 一 个 差劲 的 程序 设计 。 其 次， 如 
果 程 序 可 以 休眠 ,效率 将 可 提升 不 少 , 因为 可 以 释放 处 理 器 给 其 他 任务 使 用 ， 每 当 有 一 
个 或 多 个 文件 描述 符 已 就 绪 可 进行 TO 时， 则 会 唤醒 休眠 中 的 任务 。 


接着 让 我 们 来 探讨 多 任务 式 (multiplexed) LO。 


多 任务 式 WO 让 一 个 应 用 程序 可 以 同时 服务 多 个 文件 描述 符 ,以 及 在 其 中 有 任何 一 个 训 
绪 可 进行 读 取 或 写 人 时 收 到 通知 而 不 会 受到 阻挡 ,多 任务 式 WO 因此 成 为 了 应 用 程序 的 
支点 ， 它 的 运作 方式 类 似 下 面 这 样 ; 


1. 多 任务 式 MO: 当 这 些 文件 描述 符 中 有 任何 一 个 就 绪 可 进行 /JO， 请 角 知 我 。 

2, 休 痕 ， 直 到 有 一 个 或 多 个 文件 描述 符 崔 备 妥 当 。 

3. 唤醒 : 什么 准备 就 结 了? 

4. 处 理 所 有 就 绪 可 进行 IO 的 文件 描述 符 而 不 会 受到 阻挡 。 

5. 回 到 步骤 1， 从 头 开始 。 

Linux 提供 了 三 种 多 任务 式 IO 解决 方案 : select、poll 以 及 epoll 接口 。 本 章 将 说 明 前 
面 两 种 接口 ， 最 后 一 种 接口 (属于 高 级 Linux 解决 方案 ) 则 会 在 第 四 音 加 以 说 明 。 


select() 
select () 系统 调用 提供 了 一 个 可 用 于 实现 多 任务 式 同 步 IO 的 机 制 ; 


#include <asya/time,.h> 
#include <gya/types.hy 
#include <unistd.h> 


int select (int n, 
fa _ set *readfds, 
fa eet *writefdsa., 
fd set *exceptfdes, 
Btruct timeval *timeout)}),; 


FD CLR(int fa4, fa set *set); 
FD ISSET(int fd, fd Bet *Bet)} 
FD SET(int fa, fa set waet)s 
FD ZERO(fd set *sget); 


调用 select() 将 受到 阻挡 ， 必 须 等 到 指定 的 文件 描述 符 就 绪 可 进行 WO， 或 者 等 到 
个 可 指定 的 时 间 限 额 过 去 。 


此 调用 所 监视 的 文件 挡 述 科 会 被 划分 成 三 个 部 分 , 每 个 部 分 用 于 等 待 不 同 的 事件 。 列 于 
readfds 分 组 中 的 文件 描述 符 用 于 查看 是 否 有 数据 可 供 读 取 (也 就 是 说 , 读 取 操 作 是 
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否 可 以 完成 而 不 会 受到 阻挡 )。 列 于 writefds 分 组 中 的 文件 接 述 答 用 于 查看 写 入 操 
作 是 否 可 以 完成 而 不 会 受到 阻挡 。 最 后 ， 位 十 exceptfds 分 组 的 文件 描述 符 用 于 查 
看 是 否 有 异常 发 生 ， 或 者 是 否 有 紧急 数据 (out-of-band data， 译 注 2) 可 用 【这 些 状 态 
仅 应 用 于 socket) 。 这 些 分 组 有 可 能 是 NULL, 在 此 情况 下 select{) 将 无 法 监视 相应 
的 事件 。 


从 此 调用 成 功 返 回 后 ,每 个 分 组 只 会 包 售 就 绪 可 进行 WO 的 文件 质 述 待 。 举 例 来 说 ， 如 
果 有 两 个 文件 描述 符 ， 它们 的 值 分 别 是 7 和 9， 会 被 放 在 readfids 分 组 。 从 此 调用 返 
回 时 ， 如 果 7 仍然 存在 于 该 分 组 ， 代 表 该 文件 描述 符 可 供 读 取 而 不 会 受到 阻挡 。 如 果 
9 已 不 存在 于 该 分 组 中 , 那么 对 它 进 行 读 取 操作 时 或 许 会 受到 阻挡 〈 之 所 以 说 或 计 , 是 
因为 数据 可 能 会 在 此 调用 完成 之 后 变 成 可 供 读 肾 的 。 在 此 情况 下 ,随后 调用 select 1() 
将 返回 此 文件 接 述 符 ( 注 5) ) 。 


第 一 个 参数 n 等 于 任何 分 组 中 最 高 编写 的 文件 描述 符 的 值 加 1。 因此，select{) 的 调 
用 者 负责 检查 指定 的 文件 描述 符 古 否 为 最 高 值 ， 以 及 将 该 值 加 1 作为 第 一 个 参数 。 


timeout 参数 是 一 个 指 问 timeval 结构 的 指针 ， 访 结构 的 定义 如 下 所 示 : 
#include <gya/time.h> 


satruct timeval 1 
long tv secs /* geconds */ 
long tv usec; /* microseconds */ 
上 
如 果 此 参数 不 是 NULL， 则 select () 调用 将 在 tv_sec 种 与 tv_usec 微 秒 之 后 返 
回 ， 即 使 尚 无 任何 文件 描述 符 就 绪 可 进行 WO。 作 为 代价 ， 此 结构 的 状态 跨 系 统 调用 会 
变 成 未 定义 的 ， 因 此 每 次 调用 之 前 必须 重新 子 以 初始 化 。 事 实 上 ，Linux 当前 的 版 本 会 
自动 修改 此 参数 ， 将 它 的 值 设 定 为 剩余 的 时 间 。 因 此 ， 如 果 timeout 被 设 定 为 5 秒 , 而 
且 在 革 个 文件 描述 符 变 为 可 用 之 前 已 经 过 去 3 种 的 上 时间， 二 是 从 此 调用 返回 时 
vtv _ sec 的 值 将 是 2 
如 果 timeonut 的 这 两 个 值 都 被 设 为 零 ， 则 此 调用 会 立即 返回 ,报告 此 调用 进行 的 时 候 是 
否 有 任何 事件 等 待 处 理 ， 但 古 不 会 等 待 其 后 的 任何 事件 。 
这 些 文件 描述 符 分 组 并 不 会 被 直接 操控 ， 而 是 通过 一 些 辅 助 宏 (helper macro) 来 进行 
译注 2; “out-o-band data ”在 TCP 中 称 为 “urgent data”， 所 以 可 翻译 成 “ 坚 意 数据 ”。 
注 5; 这 胰 因 为 select() 与 Doll1) 是 电 平 触发 (level-triggered) 而 非 边缘 击发 【edge- 


triggered)。 至 于 epoll() (将 于 第 四 章 讨论 ) ， 则 可 以 在 这 两 种 模式 中 操作 。 边 综 和 甬 
发 抒 作 比较 简单 .但 是 一 不 小 心 可 能 会 漏 掉 IO 事件 ， 
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管理 。 这 让 Unix 系统 可 以 使 用 它们 所 希望 的 方式 米 实现 这 些 分 组 。 然 而 ， 多 数 系 攻 
将 这 些 分 组 实现 成 简 单 的 位 数组 ,FD_zZERO 可 从 特定 的 分 组 移 除 所 有 的 文件 描述 符 .你 
应 该 在 每 次 调用 select 1() 之 前 调用 此 安 : 

[dd_setl wriLefds; 

FD ZERO Writefds}: 
FD_SET 可 用 来 将 一 个 文件 描述 符 加 入 指定 的 分 组 ， 而 FD_CLR 可 用 来 从 所 指定 的 分 
组 移 除 -一 个 文件 摘 述 符 : 


FD SETIfd, &wrilLefds)}).; 六 将 ta 加 入 分 组 */ 
ED_CLRIEG，&writetce) ; zx 上 咀 呀 ， 从 分 组 移 除 fG *y/ 


芭 讨 民 好 的 程序 代 但 应 该 永 还 部 不 必 使 用 FD_CLR， 如 果 有 需要 ， 也 是 很 少 用 到 。 


FD_ISSET 可 用 来 测试 某 个 文件 描述 符 是 否 为 特定 分 组 的 :- 部 分 。 如 果 此 文件 描述 符 在 
法 分 组 中 ， 则 返回 非 零 的 整数 ， 否 则 返回 0。 从 select() 调用 返回 后 ， 可 使 用 
FD_ TSSET 来 测试 特定 义 件 描述 符 是 否 已 就 绪 而 不 会 受到 阻挡 : 


if (wD TSSETIfSd, &readfdqs}) 
A [9 可 供 读 到 不 会 受到 了 挡 ! */ 
因为 文件 描述 得 是 静态 创建 的 , 所 以 会 对 文件 描述 符 的 最 大 数 日 造成 限制 , 而 文件 描述 
竹本 身 也 有 最 高 值 的 限制 ， 这 两 种 限制 可 通过 FD_SETSIZE 来 设 定 。 在 Linux 中 ， 此 
仁 为 1,024。 本 草 稍 后 会 过 论 此 限制 所 造成 的 后 果 


返回 值 与 错误 代码 
执行 成 功 时 , select () ee PP 就 绪 可 进行 WO 的 文件 描述 符 的 数 日 。 如 
采 措 定 了 timeout 参数 ， 则 返回 值 将 会 是 0。 发 生 错 误 时 ， 此 调用 会 返回 -1 并 且 将 
errno 设 定 为 下 面 的 其 中 一 个 值 . 
EBADEF 

分 组 中 提供 了 一 个 无 效 的 文件 描述 符 。 
EINTR 


举行 时 捕捉 到 一 个 信号 ， 你 可 以 再 次 调用 select 11)。 
BINYVAL 
参数 nn 是 负数 或 者 给 定 timeout 是 无 效 值 。 


ENOMEM 
内 三 不 足以 完成 这 项 请 求 。 
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select() 范例 
让 我 们 来 看 一 个 范例 程序 ， 此 范例 平凡 无 奇 但 是 功能 齐全 ， 是 以 说 明 select() 的 用 
法 。 此 范例 会 等 候 sidin 的 输入 数据 5 秒 的 时 间 。 它 内 会 检查 单一 文件 挡 述 衙 ， 因 此 它 
所 进行 的 并 非 多 任务 式 WO， 但 是 这 样 可 明确 表示 此 系统 调用 的 用 法 :; 

#include <stdio.h> 

#include <sys/time.h> 


#include <sys/types.h> 
#include <unistd.hs> 


tqdefine TIMEOUT 5 zx gelect 的 等 待 时 间 ， 以 秒 为 单位 */ 
#define BUEF_LEN 1024 zx* 读 取 缓冲 区 ， 以 字 节 为 单位 */ 


int malin (vold) 

{ 
struct timewval tv: 
fd _ set readtds: 
int ret; 


re 车 候 stdin 的 输入 数据 。*/ 
FD ERO{&EIreadfds): 
FD_SETISTDIN_FILENO, &readlda}: 


/* 等 个 5 种 的 时 间 。 */ 
tv. ty Sece = TIMEOQUT; 
tvy. ty usec = 0; 


jx* 寻 了 开始 提供 服务 !  *7 
ret = Select (ISTDIN_FILENO + 1, 
greadfds, 
NUT,L,, 
MUDLL, 
&tv)s 
if tret == -1]}) 1 
Derror ("select"); 
return 工 ; 
} else if [llret) 1 
printf {$d seconds elapsed. “nn", TIMEOUT)}:; 
return 0}: 


A 
* 我 们 的 文件 描述 符 可 供 读 取 了 吗 ” 
* { 肖 定 可 以 ， 因 为 它 是 我 们 所 提供 的 唯 -一 £9， 
* 而 且 此 调用 会 返回 非 索 情 ， 但 是 我 们 想 硕 自己 - 默 。)】 
wy 
if 【ED JSSET(ISTDOIN_FILENO, kreadfds)) 
char buf [BUF_LEN+1]:; 
int lens; 
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x+* 保 让 不 会 遭 到 陨 挡 */ 
lon = read ISTDIN_FILENO, bul, BUF_UEN): 
if (len == -1) 1 

Derror {"read”): 

return 1; 


if 【Len 1 
Baflilieny = 7 “0 


printf fread: sn", buft}),; 


TEN UW; 
| 


fprintf stderr, "Ihis shoyuld nat happen!‘\n"l): 
return 1.: 


使 用 select() 具 可 移植 性 的 休眠 机 制 

相 比 较 于 亚 秒 级 分 辩 率 (subseeond-resolution ) 休眠 机 制 , select {) 以 往 就 是 各 Unix 
系统 上 比较 容易 实施 的 休眠 机 制 。 需 要 有 具 可 移植 性 的 休眠 机 制 时 ， 往 往 会 使 用 
select1(), 方法 是 提供 非 NULL 值 的 timeout 参数 , 但 是 要 将 三 个 分 组 的 参数 全 都 设 
光 NULL : 


struct timeval tv: 


tvbyv Sec = 0; 
tv ,ty USEeC = SUD; 


/* 休眠 500 微 秒 */ 


select (0, NULL, NUTDL, NULi, &twv): 


当然 ，Linux 也 会 为 饥 分 辩 府 体 降 机 制 皇 供 接 日 。 我 们 将 在 第 了 草 探 讨 这 些 接 口 。 


pselect({) 


select () 系统 调用 和 是 4.2BSD 首先 推出 的 , 广 受 欢迎 ， 但 是 POSIX 却 在 POSIX 
1003.1g-2000 以 及 之 后 的 POSIX 1003.1-2001 中 是 区 了 日 己 的 解决 方案 pselect (1) : 


【= 
#inmnclude <SYSa/Select .hy> 


int pselect {int n, 
faq aet *readfds, 
fa set *writefds, 
fa _ set *exceptfdas, 
conat struct timespec *timeout, 
const sigset t *gigmaak):; 


3 
ii 
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FD CLR{Iint fda, fq set *set):; 
FD ISSET(int fd, fd set *aet):; 


FD SET(int fd, fd _ eet *set)}); 
FD ZERO(fd set *get),; 


pselect () 与 select(}) 之 问 有 三 掺 不 同 ; 


I. pselect{) 为 它 的 timeout 参数 使 用 的 是 timespec 结构 而 不 是 timeval 
疆 构 ,Limespec 结构 采用 的 是 秒 和 纳 秒 (nanosecond， 即 十 亿 分 之 一 种 ) 级 区 
定 值 ， 而 不 是 秒 和 微 种 {microsecond， 即 百 万 分 之 一 秒 ) 级 设 定 值 ， 理 论 上 而 言 


可 以 提供 较 佳 的 timeout 分 辨 率 。 然 而 事实 上 ， 这 两 种 调用 都 只 能 可 靠 地 提供 微 
级 的 分 辩 率 。 


2.、 调用 pselect () 的 结果 并 不 会 改变 timeout 参数 的 值 。 因 此 ， 后 续 的 调用 并 
不 需要 重新 对 此 参数 进行 初始 化 。 

3. ”select () 系统 调用 并 没有 sigmask 参数 。 就 信号 的 处 理 而 言 ， 当 此 参数 铸 必 
定 为 NULL 上 时，Pselect1() 的 行为 和 select() 一 样 。 

timespec 结构 的 定义 如 下 有 所 示 : 
#incljude <esyas/time.h> 


gtruct timespec { 
long ty gec; /* Seconde */ 
long tv nagec; /* nanoaeconds */ 
}}; 
之 所 以 会 将 pselect () 加 入 Unix 工具 箱 ， 背 后 的 主要 动力 是 增加 了 sigmask 参 
数 ， 其 目的 是 解决 等 待 文件 描述 符 与 信号 处 理 (第 九 章 将 有 深入 的 探讨 ) 之 则 的 竞争 条 
件 。 假 设 信号 处 理 程序 会 设 定 一 个 全 局 标志 ， 而 且 进程 在 调用 select () 之 前 会 检查 
此 标志 。 现在 , 假设 信号 是 在 检查 之 后 以 及 调用 之 前 抵达 。 这 样 应 用 程序 可 能 无 限期 受 
到 阻挡 ， 而 无 法 对 所 设 定 的 标志 作出 响应 。pselect 1() 调用 可 以 解决 这 个 问题 ， 其 做 
法 是 为 调用 pselect() 的 应 用 程序 提供 一 组 受阻 挡 的 信和 号。 受阻 描 的 信号 不 会 被 处 
理 ， 除非 它们 已 不 再 受阻 挡 。 一旦 从 pselect () 返回 , 内 核 会 恢复 旧 的 信号 掩 码 。 详 
细 内 容 参 见 第 九 童 。 


直到 2.6.16 版 内 核 , pselect () 的 Linux 实现 才 并 非 是 系统 调用 , 而 古 glibe 所 提供 
的 select () 的 简单 包 右 函数 。 此 包 夷 国 数 可 尽 基 避免 (但 是 无 法 完全 消除 ) 产生 更 
争 条 件 的 风险 。 如 果 能 够 引进 真正 的 系统 调用 ， 将 可 完全 避免 范 争 条 件 。 


好 管 pselect 1) 做 了 一 些 改进 , 但 是 多 数 应 用 程序 , 无 论 是 出 于 习惯 还 是 基于 可 移植 
性 ， 仍 继续 使 用 select 1()。 
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poll() 
poll() 系统 调用 是 System V 的 多 任务 式 I/O 解决 方案 。 它 解决 了 select() 的 若干 
缺点 ,然而 select () 仍旧 经 党 被 用 到 (同样 地 , 多 半 是 出 于 习惯 或 者 是 基于 可 移植 性 ): 


#include <sys/poll.h> 


int poll (struct pollfd *fds, unsigned int nfds, int timeout); 


不 同 于 使 用 效率 低下 的 三 个 基于 位 掩 码 的 文件 描述 符 分 组 ,PoL1L1) 使 用 的 古 nfds 个 
由 fds 指 癌 的 polLllfa 结 构 所 组 成 的 单一 数组 。pollfa 结构 的 定 交 如 下 所 示 : 


#include <saY8/DPOll1.h> 


struct pollfd { 
int fqd; /1* 次 件 描述 符 */ 
short eventes; +* 所 要 查看 的 事件 */ 
Short revents; /1* 返回 所 目击 的 事 人 性 */ 
上 
每 个 po1l11fa 结构 可 用 于 指定 一 个 要 查看 的 文件 摘 述 符 。 你 可 以 传递 多 个 pellfa 结 
构 ， 指 示 pol1l11() 查 看 多 个 文件 描述 符 。 每 个 pollfa 结构 的 events 字段 是 该 文件 
描述 符 所 要 查看 事件 的 位 掩 码 ,用户 可 以 设 定 此 字段 。 而 revents 字段 则 是 该 文件 摘 
述 符 所 日 击 事件 的 位 掩 码 , 内 核 会 在 返回 时 设 定 此 字段 。 events 字段 中 所 要 求 的 事件 
可 能 会 从 revents 字段 返回 。 有 和 效 的 事件 如 下 所 示 : 
POLLIN 
有 数据 可 供 读 取 。 
POLLRDNORM 


有 一 般 数 据 可 供 读 取 。 


POLLRDBAND 

有 优先 数据 可 供 读 取 。 
POLLPRI 

有 紧急 数据 可 供 读 取 。 
POLLOUT 

写 人 操作 将 不 受阻 挡 。 
POLLWRNORM 

写 人 一 般 数 据 将 不 受阻 挡 。 
POLLWREAND 


写 人 优先 数据 将 不 受阻 挡 。 


志 二 -一 二 
66 二 证 
POLLMSG 


有 SIGPOLL 消息 可 用 。 


此 外 ，revents 字段 可 能 会 返回 下 列 事件 : 


POLLER 
所 指定 的 文件 摘 述 符 发 生 错 误 。 
POLLHUP 
所 指定 的 文件 揪 述 付 发 生 挂 起 (hung up) 事件 。 
POLLNVAL 
所 指定 的 文件 摘 述 符 无 效 。 
这 些 事件 在 events 字段 中 蕙 无 意义 ， 因 为 如 果 适 用 ， 它 们 总 是 会 被 返回 。 与 
select{) 不 同 的 症 ， 使 用 po11({) 时 你 无 顷 显 了 要求 它 报告 异常 的 情况 。 


POLLIN | POLLPRI 等 笋 于 select() 的 读 取 事件 ,而 POLEOUT | POLLWRBAND 等 
效 于 select() 的 写 入 事件 。POLLIN 等 效 于 POLLRDNORM | POLLRDBRAND ， 和 而 
POLLOUT 等 效 于 POLTWRNORM 。 


举例 来 说 ， 如 果 旧 查看 -一 个 文件 描述 符 的 可 读 性 和 可 写 性 ， 我 们 会 将 events 字段 设 
定 为 POLLIN | POLLOUT。 从 调用 返回 后 ， 我 们 会 在 与 该 文件 描述 符 相 应 的 结构 中 
检查 revents 字段 。 如 果 设 定 了 POLLTIN， 代 表 读 文件 描述 符 可 供 读 取 而 不 会 受到 
阻挡 。 如 果 设 定 卫 POLOUT， 代 表 该 文件 描述 符 可 供 写 人 而 不 会 受到 阻挡 。 这 两 个 标 
志 并 非 互 相 排斥 : 同时 设 定 时 ， 意 味 着 该 文件 描述 符 可 供 读 写 而 不 会 受到 阻挡 。 


timeout 参数 用 来 指定 等 不 到 有 任何 就 绪 的 WO 而 要 返回 之 前 所 需 等 待 的 时 间 ， 以 训 
秒 为 单位 。 此 参数 戎 为 负 值 ， 形 示 励 限 圭 待 下 去 ， 此 参数 若 为 0， 表示 立即 返回 以 及 列 
出 已 就 绪 的 可 进行 VO 的 任何 文件 摘 述 符 , 但 是 不 会 等 待 任 何 进 一 步 的 事件 ,在 此 情况 
下 ，po11() 的 行为 正如 其 名 ， 探 阿 一 次 便 立 即 返 回 。 


返回 值 与 错误 代码 
执行 成 功 时 ，po11{) 会 返回 有 日 击 事件 文件 描述 符 (也 就 是 其 结构 具有 非 堆 的 
revents 字段 ) 的 数 日 ， 如 果 在 有 任何 事件 发 生 之 前 此 调用 因 请 时 而 返回 ， 则 会 返回 
0。 执 行 失败 时 ， 会 返回 -1 并 且 将 errno 设 定 为 直面 的 其 中 一 个 值 ; 
EBADF 

在 一 个 或 多 个 结构 中 指定 了 无 效 的 文件 描述 符 。 
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EFAUDLT 


指向 fds 的 指针 指向 了 进程 地 址 空间 以 外 的 地 方 。 


EINTR 


所 请 求 的 事件 发 生 之 前 收 到 了 一 -个 信和 号。 你 可 以 重新 进行 此 调用 。 


EINVAL 


nfds 参数 的 设 定 值 超过 了 RLIMIT_NOFIELR 的 限制 。 


ENOMEM 


内 存 不 足以 完成 这 项 请 求 。 


poll() 的 范例 
让 我 们 来 看 一 个 范例 程序 ,此 程序 特使 用 po11 1{) 同时 检查 由 读 取 sidin 以 及 写 入 stdout 
是 否 会 受到 阻挡 : 


#inciluyude <stdio.hs> 
#include <unistd.h> 
tiricjude <Ssys/poll.h> 


#define TIMEOQUT 5 


iDt wain {void) 


l 


i* poil 的 等 待 时 间 ， 以 种 为 单位 */ 


struct pollfad fds[21; 


jE TT 


i* 查看 stain 的 输入 */ 
fds[0i,.fd6 = STRIN_FILENOG: 


fds[0] .evenrts 


zx* 查看 stdout 


= POLLIN; 


是 否 可 供 写 人 (通常 可 以 ) */ 


fds[ll1l .fd = 3STDOUT FILENO:; 


fas[ll .events = 


POLLOUT': 


+* 都 设 定 好 耳 ， 开 始 近 供 服务 ! */ 
ret = poll lfds, 2, TIMEOUT * 1000); 


af {ret == -1} 
Berroar 
开 芝 七 站 匡 焉 


} 


if 《17 全 1 
Drirntt 
ret.urit 

} 


| 
("Poli"),; 


wo 


("$d Seconds elapsed, Nn, TIMEOUTS ; 


0: 


IE [fdsi0] .revents & POLLIN) 


printt 


("stdin is readable\n"); 


bs 
n 


| 
| J 


Ob8 


if (fds[l| .revents & POLLOUT) 
printf ("stdout is writable\n");} 


return 了 |; 
} 
运行 此 程序 ， 我 们 会 得 到 如 下 的 预期 结果 ， 


S ./poll 
Stdcut 1S wriLable 


再 运行 一 次 此 程序 , 不 过 这 次 将 一 个 文件 重 定 耻 至 标准 输入 ,于 古 我 们 会 看 到 如 下 的 结 
后 : 


S$ EoOll < ode_to_m_parrot,txt 
3tdin 1s readable 
stdout is writable 


如 果 我 们 在 实际 的 应 用 程序 中 使 用 poll 1{) ,我 们 将 不 需 旨 在 每 次 调用 时 重新 设 定 pol1lfq 
结构 。 你 可 以 反复 传递 相同 的 结构 ， 如 果 有 有 需要， 内 核 会 负责 把 revents 宁 上 段 清 零 。 


ppoll() 
如 同 pselect{)，Linux 也 提供 poll1) 的 表亲 ppoll()。 然 而 与 pseLect 1 ) 
不 同 的 是 ，ppoll() 是 Linux 特有 的 接口 ; 


#define GNU SOURCE 
#1include <avyea/pPoll.h> 


int ppoll (struct pollfgd *fds, 
nfds tt nfdgs, 
const struct timespec *timeout., 
const sigset 七 *sigmask); 


如 同 pselect ()，timeout 参数 也 是 采用 秒 和 和 纳 种 级 的 设 定 值 ， 而 sigmask 参数 
则 可 用 来 指定 所 此 等 待 的 一 组 信号 。 


比较 poll() 与 select() 

尽管 pol1() 与 select () 所 进行 的 是 相同 的 工作 , 不 过 Bol11) 优 于 select()， 
这 主要 是 因为 : 

。 “Poll() 并 不 需要 用 户 计算 诈 传 递 作为 参数 的 最 高 编号 的 文件 描述 符 的 值 加 1。 


* poll() 的 效率 优 于 采用 最 大 值 的 文件 描述 符 的 做 法 。 例 如 , 你 以 select() 来 
查看 单一 文件 描述 和 任 的 最 大 值 为 900 一 一 内 核 必 须 为 每 个 分 组 检查 900 个 位 的 设 
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定 状 态 。 

. select () 的 文件 描述 符 分 组 的 大 小 是 固定 的 ， 这 导致 两 难 的 权衡 如 果 太 小 ， 
select(}) 可 查看 的 文件 描述 符 数 目 就 会 大 受 限制 ; 如 果 太 大 , 就 会 没有 效率 ,大 
型 位 棒 码 的 处 理 很 没 效率 , 特别 是 在 不 知道 位 掩 码 设 定 的 位 是 否 太 稀 晓 时 ( 注 6)， 
使 用 pol1 1{) 则 可 创建 一 个 大 小 刚好 的 数组 。 你 只 要 查看 一 个 条 目 ， 而 且 只 需 传 
递 单 一 结构 。 

. 使 用 select 1() 会 在 返回 时 重新 构建 文件 描述 符 分 组 ， 所 以 每 个 随后 的 调用 必须 
重新 初始 化 它们 。pol11) 系统 调用 则 把 输入 (events 字段 ) 与 输出 (revents 
字段 ) 分离， 并 允许 重复 使 用 数组 而 不 需要 变 园 。 

. 返回 后 ，select() 的 timeout 参数 会 变 成 未 定义 的 。 所 以 具 可 移植 性 的 程序 
代码 需要 重新 对 它 进 行 初 始 化 。 然 而 ， 若 使 用 pselect () 则 不 会 过 到 此 问题 。 

但 是 select () 系统 调用 却 具有 以 下 优点 : 


»* select(} 较 具 可 移植 性 ， 因 为 有 些 Unix 系统 并 不 支持 poll ()。 

. select() 提供 了 较 佳 的 timeout 分 辩 率 : 可 以 精确 到 微 秒 。 尽 管 ppol1() 与 
pselect{) 理论 上 可 以 提供 纳 种 级 分 辩 率 ,但 实际 上 它们 甚至 无 法 可 靠 地 提供 短 
种 级 分 辩 率 。 

我 们 将 在 第 四 章 探 讨 优 于 pol11) 与 select () 的 epoll 接 口 ， 这 是 一 个 Linux 特有 

的 多 任务 式 VO 解决 方案 。 


内 核 内 部 


本 市 将 探讨 Linux 内 核实 现 WO 的 方式 ， 聚 焦 于 内 核 的 三 个 主要 子 系统 : 虚拟 文件 系 
统 (virtual filesystem， 和 倍 称 YFS)、 页 面 缓存 (page cache) 以 及 南面 写 回 【page 
writeback)。 总 的 来 说 ， 这 些 子 系统 可 以 协助 我 们 进行 无 颖 、 高 效 和 优化 的 WO。 


走马 
t 
看 


第 四 章 将 探讨 第 四 个 子 系 统 ，LHO 调度 程序 (scheduler)。 





注 661 如 果 位 撞 码 通常 设 定 的 位 不 多 {sparsely populated) ， 你 可 以 检查 构成 掩 码 的 每 小 字 是 
否 为 过 ,只 有 在 该 项 操作 返回 假 值 时 才 需 要 检查 每 个 位 。 热 而， 如果 位 撞 友 中 设 定 的 位 
很 多 (densely populated)， 访 项 操作 就 是 在 汇 费 时 间 ， 
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虚拟 文件 系统 


虚拟 文件 系统 (VFS)， 有 时 也 称 为 虚拟 文件 切换 系统 《viriual file switch)， 是 一 个 抽 
象 的 机 制 ， 它 让 Linux 内 核 在 调用 文件 系统 函数 以 及 操作 文件 系统 数据 的 时 人 条， 不 家 
要 知道 甚至 关心 所 使 用 的 是 何 种 文件 系统 。 


VFS 这 种 抽象 机 制 是 通过 一 个 公共 文件 模型 (common file model) 来 实现 的 ， 公 共 文 
件 模 型 是 Linux 中 所 有 文件 系统 的 基础 。 经 函数 指针 以 及 各 种 面向 对 象 的 实践 ( 注 7)， 
公共 文件 模型 为 Linux 内 核 的 文件 系统 提供 了 一 个 必须 遵循 的 框架 。 这 让 VFS 可 以 全 
面 进 行文 件 系 统 的 请 求 。 此 框架 提供 了 挂钩 来 支持 读 取 、 创建 链接 、 同步 化 等 功能 。 然 
后 每 种 文件 系统 可 以 注册 其 特有 的 国 数 ， 以 便 处 理 其 所 能 进行 的 操作 。 


此 做 法 让 各 种 文件 系统 之 间 有 了 一 定 程度 的 共同 性 。 例 如 ，VEFS 会 用 到 的 inode、 
superblock 以 及 directory entry (目录 项 ) 等 对 象 。 然 而 一 个 非 源 目 Unix 的 文件 系统 
可 能 会 欠缺 Unix-like 的 概念 《例如 inode) ， 必 须 于 以 克服 。 当 然 ， 和 它们 的 确 死 服 了 : 
Linux 支持 FAT 和 NTFS 之 类 的 文件 系统 而 不 会 有 问题 。 


VFS 的 好 处 很 多 。 单 一 系统 调用 可 以 读 取 任何 存储 媒介 上 的 任何 操作 系统 , 单一 实用 程 
序 可 以 从 一 个 文件 系统 复制 到 任何 其 他 文件 系统 。 所 有 文件 系统 均 支 持 相 同 的 概念 . 相 
同 的 接口 以 及 相同 的 调用 。 这 一 切 都 能 够 运作 一 一 而 且 运 作 得 很 好 。 


当 一 个 应 用 程序 进行 read () 系统 调用 时 ， 它 会 经 历 一 个 有 趣 的 旅程 。C 链接 库 所 所 
供 的 系统 调用 定义 在 编译 时 会 被 转换 成 适当 的 trap 语句 。 当 一 个 用 户 空 间 进程 陷入 
(trapped into) 内 核 后 ， 控 制 权 会 通过 系统 调用 处 理 程 序 交 给 read() 系统 调用 ， 于 
是 内 核 可 以 找 出 支持 《back) 所 指定 的 文件 换 述 和 任 果 古 何 种 对 象 。 然后 内 核 会 调用 与 痛 
后 对 象 相 应 的 读 取 因数 。 对 文件 系统 而 言 , 此 函数 是 文件 系统 程序 代码 的 一 部 分 ， 会 
做 它 该 做 的 事 〈 例 如 ， 实 际 从 文件 系统 读 取 数据 ) 并 且 将 数据 返回 给 用 户 空 间 的 
read() 调用 。 于 是 会 从 系统 调用 处 理 程序 返回 , 而 系统 调用 处 理 程序 会 将 数据 复制 回 
用 户 空间 ， 接 着 从 用 户 空间 的 rea6 1() 系统 调用 返回 ， 然 后 进程 会 继续 执行 。 


对 系统 编程 人 员 而 言 , YFS 的 相关 细 市 很 重要 ,编程 人 员 并 不 需要 担心 文件 系统 有 的 类 型 或 
者 文件 位 于 哪 种 存储 媒介 之 上 。 使 用 通用 的 系统 调用 ， 如 rea6{)、write{) 等 ,就 可 
以 操作 位 于 任何 支持 的 文件 系统 以 及 任何 支持 的 存储 媒介 上 的 文件 。 


渤 了 : 没 错 ， 使 用 CC 语言 。 
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页 面 缓存 
页 面 缓存 (page cache) 是 一 块 内 存 存储 区 ， 用 来 临时 存放 最 近 从 磁盘 文件 系统 上 访问 
的 数据 。 磁 盘 的 访问 速度 相当 缓慢 , 尤其 是 相对 于 今日 的 处 理 器 速度 而 言 。 将 所 请 求 的 
数据 暂 存在 内 存 , 让 内 核 可 以 从 内 存 来 满足 之 后 对 相同 数据 所 提出 的 访问 请 求 ， 避免 反 
复 访问 磁盘 。 


页 面 缓 存 利 用 了 时 间 局 部 性 (remporal localiiy) 的 概念 , 这 是 一 种 引用 局 部 性 (locality 
of reference)， 是 指 一 个 资源 被 访问 后 ， 在 不 久 的 将 来 再 次 被 访问 的 概率 很 高 。 使 用 内 
存 来 缓存 第 一 次 访问 到 的 数据 是 值得 的 ， 因 为 这 可 以 避免 日 后 代价 昂贵 的 磁盘 访问 。 


查找 文件 系统 数据 时 ， 内核 会 先 从 页 面 缓 存 开始 。 只 有 当 它 不 存在 于 缓存 中 时 ， 内核 才 
会 调用 内 存 子 系统 从 磁盘 读 取 数据 。 因此, 首次 读 取 任 何 数据 时 ,该 数据 会 从 磁盘 传 适 
至 页 面 缓存 并 从 缓存 返回 应 用 程序 。 如 果 之 后 再 次 读 取 该 数据 , 该 数据 会 直接 从 组 人 存 返 
回 。 所 有 操作 都 会 自动 通过 页 面 缓存 进行 ， 以 确保 缓存 区 的 数据 是 相关 的 而 且 始 终 有 
请 


Linux 的 页 面 缓存 区 的 大 小 是 可 以 变动 的 。 当 LO 操作 将 越 来 越 多 的 数据 存 人 内 存 时 ， 
页 面 缓 存 区 会 变 得 越 来 越 大 , 进而 消耗 任何 可 用 的 内 存 。 如 果 页 面 缓存 区 最 后 耗 尽 了 所 
有 可 用 的 内 存 ， 而 且 出 现 了 分 配 更 多 内 存 的 要 求 ， 则 页 面 缓 存 区 会 遭 到 修 欧 (prune)， 
释放 其 最 少 被 用 到 页 面 , 以 便 挪 出 空间 给 “真正 的 ”内 存 使 用 。 修 前 动作 会 无 间隙 地 目 
动 进行 。 由 于 大 小 可 以 变动 ， 因 此 缓存 区 人 允许 Linux 使 用 系统 中 所 有 内 存 并 缆 存 尽 可 


然而 , 相 比较 于 修剪 页 面 缓存 区 中 经 常 被 用 到 的 部 分 , 而 它们 很 可 能 在 下 一 个 读 取 请 求 
被 重新 读 进 内 存 , 把 很 少 用 到 的 数据 块 交 换 (swap) 到 磁盘 会 更 有 意义 【交换 功能 让 内 
核 可 以 将 数据 存储 在 磁盘 上 ， 因 此 可 以 使 用 比 系统 的 RAM 还 大 的 内 存 空间 (memory 
footprint) )。Linux 内 核实 现 了 试探 性 算法 以 便 让 数据 的 交换 与 页 面 缓 存 (以 及 保留 在 
内 存 中 的 其 他 数据 ) 达到 平衡 。 这些 试探 性 算法 可 决定 是 否 以 换 出 数据 到 磁盘 取代 修剪 
页 面 缓存 ， 特 别 是 如 有 果 锌 换 出 的 数据 井 未 在 使 用 中 。 


交换 与 缓存 的 平衡 可 经 /proc/sys/vm/swappiness 来 调整 ,此 虚拟 文件 的 值 的 范围 是 0 ~ 
100, 默认 值 是 60。 此 值 越 高 , 意味 着 越 偏向 将 页 面 缓存 数据 保存 在 内 存 中 且 越 容易 进 
行 交换 ， 此 值 越 低 ， 意 味 着 越 偏向 修剪 页 面 缓存 区 而 不 进行 交换 。 


顺序 局 部 性 (sequential locality) 是 引用 局 部 性 的 男 一 种 形式 ， 也 就 说 数据 往往 是 顺序 
地 被 引用 的 。 利 用 此 原则 ,内核 还 实现 了 页 面 缓存 区 的 预 读 (readahead) 功能 。 预 谈 是 
指 随 着 每 个 读 取 请 求 将 额外 的 数据 从 磁盘 读 进 页 面 缓存 区 的 行为 一 一 实际 上 ， 只 预先 
读 进 一 点 点 数据 。 当 内 核 从 磁盘 读 进 一 团 数 据 时 , 还 会 顺便 读 进 随后 的 一 个 或 两 个 数据 
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团 。 一 次 性 顺序 读 进 大 型 的 数据 团 会 更 有 效率 ， 因 为 这 通常 可 免 掉 杂 找 磁盘 的 需要 。 此 

这 样 内 核 也 可 以 在 进程 恋 取 第 一 个 数据 团 的 时 候 满 足 其 预 读 的 请 求 。 如果 进程 接着 
为 随后 的 数据 团 提交 了 一 个 新 的 读 取 请 求 (这 经 营 发 生 )， 则 内 核 可 交 出 之 前 先 计 进 的 
数据 ， 而 不 必 送 出 磁盘 的 WO 请 求 。 


如 同 页 面 缓存 , 内 核 也 是 以 动态 的 方式 来 管理 预 读 功 能 。 如果 内 核 注意 到 进程 始终 如 一 
地 使 用 以 预 读 功 能 所 读 进 的 数据 ， 则 内 核 会 扩大 先 读 范 肝 (readahead window)， 因 而 
会 预先 读 进 越 来 越 多 的 数据 。 预 读 范 围 可 小 如 16 KB ， 也 可 大 到 128 KB。 反 过 来 说 ， 
如 果 内 核 注意 到 预 读 无 法 提供 任何 有 用 的 数据 ,也 就 是 应 用 程序 正在 寻找 文件 而 且 并 非 
进行 顺序 读 取 ， 则 内 核 可 以 完全 停 用 预 读 功 能 。 


页 面 缓存 的 存在 征 透明 的 。 系 统 程序 设计 者 一 般 无 法 优化 自己 的 程序 代码 ， 以 对 页 面 当 
存 存 在 的 事实 能 够 有 更 好 的 利用 一 一 除了， 或 许 他 们 无 法 在 用 户 空 间 中 实现 出 这 样 的 
继 存 功能 。 一 般 情况 下 ,有 效率 的 程序 代码 所 各 要 的 就 是 善 用 页 向 缓存 。 另 一 方面 利 
用 预 读 功 能 是 有 可 能 的 。 顺 序 文件 VO 总 是 优 于 随机 访问 ， 虽然 它 并 非 总 是 可 行 。 


贝 面 与 回 

正如 稍 早 在 “write(0 的 行为 ”一 节 所 提 到 的 ， 内 核 的 延 后 写 人 功能 是 通过 缓冲 区 完成 
的 。 当 一 个 进程 送出 写 人 请求 时 , 数据 会 被 复制 到 一 个 缓冲 区 , 该 缓冲 区 会 被 标记 成 “已 
被 改变 ”(dirty) ,这 意味 着 内 存 中 的 副本 比 磁 盘 上 的 副本 新 。 接着 就 会 从 写 人 请 求 返回 
如 未 有 另 一 个 写 人 请 求 针 对 相同 文件 的 同一 个 数据 团 , 则 缓冲 区 会 被 新 数据 所 改变 

未 写 入 请 求 是 针对 相同 文件 的 其他 地 方 ， 则 会 产生 新 的 缓冲 区 。 


节 后 被 改变 的 缓冲 区 需要 提交 给 位 盘 , 让 内 存 中 的 数据 可 以 和 磁盘 上 的 文件 同步 。 这 就 

是 所 谓 的 “ 写 回 ”( writeback) 。 两 种 情况 下 部 会 这 么 做 : 

* 者 可 用 内 存 空 间 已 经 缩减 到 低 于 可 设 定 的 浆 值 , 则 被 改变 的 缓冲 区 会 被 写 回 磁盘 ， 
所 以 数据 已 经 出 清 到 磁盘 的 缓冲 区 可 以 被 移 除 ， 释 放 内 存 空 间 。 

* 在 被 改变 的 缓 钟 区 的 保存 时 间 已 经 超过 可 设 定 的 赣 值 , 则 该 组 证 区 会 被 写 回 磁盘 。 
这 样 可 避免 数据 永久 维持 在 被 改变 的 状态 。 

写 回 操作 是 通过 一 群 名 为 pdflush (大 概 是 page dirty flush 的 缩写 ， 但 是 谁 知道 昵 ) 的 

内 核 线程 进行 的 。 当 这 两 种 情况 有 一 个 符合 时 ，pdflush 线程 会 被 唤醒 ， 开 始 将 被 改变 

的 缓冲 区 提交 给 磁盘 ， 直 到 这 两 种 情况 均 不 符合 。 

同一 时 间 可 能 会 有 多 个 pdflush 线程 实际 进行 写 回 操作 。 可 以 利用 并 行 运 算 以 及 实现 拥 

塞 识 锡 (congestion avoidance) 机 制 来 完成 。 拥塞 避免 机 制 可 用 于 避免 因为 等 待 数 据 写 
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入 块 设 备 而 造成 这 些 写 同 操作 浪 塞 。 如果 这 些 被 改变 的 缓 神 区 均 来 自 不 同 的 块 设 备 ， 则 
各 个 pdflush 线程 将 可 充分 使 用 每 个 块 设 备 。 这 改正 了 之 前 内 核 版 本 的 缺失 :pdflush 线 
程 的 前 身 (bdfiush, 单一 线程 ) 将 所 有 了 时间 花 在 等 待 单一 块 设备 上 , 而 其 他 块 设 备 却 在 
一 旁 采 置 着 。 在 现代 机 器 上 ，Linux 内 村 有 大 量 的 磁盘 设备 可 用 。 


缓冲 区 在 内 核 内 部 会 被 表示 成 buf fer_head 数据 结构 。 此 数据 结构 中 记录 了 与 缓 证 
区 有 关 的 各 种 元 数据 ,例如 缓冲 区 是 否 已 经 被 改变 。 其 中 还 包含 了 一 个 指针 ,用 于 指向 
实际 的 数据 。 此 数据 就 放 在 页 面 缓存 区 , 于 是 缓冲 区 子 系统 与 页 面 缓存 可 以 被 整合 在 一 
起 。 

在 Linux 内 核 早 期 的 版 本 (2.4 版 之 前 ) 中 ,缓冲 区 子 系统 与 页 面 缓存 区 是 分 开 的 ， 因 
此 会 同时 用 到 页 面 缓存 以 及 缓冲 区 缓存 。 这 意味 着 数据 可 能 同时 存在 于 缓冲 区 缓存 (一 
个 被 改变 的 缓冲 区 ) 以 及 页 面 缓存 (被 缓存 的 数据 ) 中 。 当 然 ， 要 让 两 个 独立 的 缓存 达 
到 同步 化 必须 费 一 些 工夫 。 从 2.4 版 Linux 内 核 开始 统一 使 用 页 面 缓存 是 一 个 受 欢迎 
的 改进 ， 

Linux 中 的 延 后 写 人 功能 以 及 缓冲 区 子 系统 提供 了 快速 写 入 的 能 力 , 不 过 代价 是 电力 中 


断 时 会 有 数据 漏 失 的 风险 。 为 了 避免 此 风险 ,有 此 疑虑 以 及 关键 的 应 用 程序 可 以 采用 同 
步 化 TO ” (本草 和 早 计 论 过 )。 


结束 语 

本 章 介绍 了 Linux 系统 编程 的 基础 知识 : 文件 1O。Linux 之 类 的 系统 会 尽 可 能 将 一 切 
表示 成 文件 ， 所 以 知道 如 何 打开 、 读 取 、 写 入 以 及 关闭 文件 非常 重要 。 这 些 都 是 典型 的 
Unix 操作 ， 并 被 包含 在 许多 标准 中 。 

下 一 章 将 介绍 缓冲 式 VO 以 及 标准 C 链接 库 的 标准 1/0 接口 。 标 准 C 链接 库 不 仅仅 是 
方便 使 用 ， 在 用 户 空 间 中 ， 缓 冲 式 1/0 为 性 能 提供 了 重大 的 改进 。 
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第 一 章 曾 提 到 块 (block) 这 个 文件 系统 的 抽象 概念 ， 它 是 IO (输入 /输出 ) 的 通用 语 
(lingua franca) 一 一 所 有 的 磁盘 操作 都 会 按照 块 来 进行 。 因 此 , 若 所 送出 的 IO 要 求 ， 
其 对 齐 块 (block-aligned) 边界 为 实际 块 大 小 的 整数 倍 ， 则 可 以 优化 VO 的 性 能 。 


读 取 操作 需要 进行 的 系统 调用 次 数 增加 时 会 导致 性 能 变 差 ， 例 如 ， 读 取 一 个 字 节 1,024 
次 ， 而 不 是 一 次 读 取 1,024 个 字 节 。 块 边界 车 非 实 际 块 大 小 的 整数 倍 ，, 则 就 算 所 进行 的 
一 系列 操作 采用 的 是 大 于 一 个 实际 块 的 尺寸 , 也 只 能 获得 次 优 的 性 能 。 举 例 来 说 , 如 果 
实际 块 大 小 为 1 千 字 节 (kilobyte， 译 注 1)， 则 操作 大 小 为 1,130 字 节 的 块 时 ， 其 速度 
仍 可 能 比 操作 大 小 为 1,024 字 节 的 块 时 还 慢 。 


用 户 缓 冲 式 IO 
必须 对 常规 文件 发 出 许多 小 型 VO 请 求 的 程序 往往 会 执行 用 户 缓冲 式 (user-buffered) 
LO。 这 和 是 指 在 用 户 空 间 中 进行 缓冲 , 可 能 是 由 应 用 程序 手动 完成 , 或 是 在 链接 库 中 自动 
完成 ， 而 不 是 由 内 核 完成 。 如 第 二 章 所 述 ， 基 于 性 能 的 考 虚 ， 内 核 内 部 会 替 延 后 写 人 ， 
联合 相 邻 MO 请 求 以 及 提前 读 取 等 操作 实现 缓冲 机 制 。 尽 管 方式 不 同 ， 用 户 缓冲 式 IO 
的 目的 也 是 提高 性 能 。 
下 面 是 一 个 用 户 空 间 程序 dd 的 执行 范例 ， 

ad bs=l1 count=2097152 if=idev/Zero Of=pirate 
由 于 指定 了 bs=1 自 变量 ,这 道 命令 会 将 2,097,152 个 天 小 为 1 宇 节 的 块 ( 共 2 此 字 
订 ， 译 注 2) 从 设备 /dev/zero (这 是 一 个 可 以 源源 不 断 提供 0 值 的 虚拟 设备 ) 复制 到 


译注 1]; 1 和 十字 节 (kilobyte) 指 的 是 1,024 个 字 节 而 不 是 1,000 个 字 节 ， 


译注 2: 之 兆 字 节 (megabyte) 指 的 是 2,097,152 个 字 节 而 不 是 2,000,000 个 字 节 ， 
”4 
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文件 pirate。 也 就 是 说 ， 数 据 的 复制 大 约 经 过 2 百 万 次 的 读 写 操作 (一 次 一 个 字 市 )。 
下 面 的 例子 仍旧 是 进行 2 兆 字 节 的 复制 ， 不 过 这 次 使 用 大 小 为 1,024 字 市 的 块 : 
dd bs=1024 count=2048 if=/devV/zero of=plrate 


上 面 这 条 命令 同样 是 复制 2 兆 字 节 到 相同 的 文件 ， 但 这 次 只 进行 了 2.048 次 的 读 写 操 
作 。 这 对 性 能 有 非常 大 的 改进 ， 如 表 3-1 所 示 。 表 3-1 中 记录 了 以 大 小 不 同 的 块 执行 
dd 命令 所 耗费 的 时 间 : 实际 时 间 (总 执行 时 间 )、 用 户 时 间 (进程 在 用 户 空 间 中 所 花费 
的 时 间 ) 以 及 系统 时 间 (在 内 核 空间 替 进 程 执 行 系统 调用 所 花费 的 上 时间 )。 


表 3-1， 块 大 小 对 性 能 的 影响 


块 大 小 实际 时 间 用 户 时 间 系统 时 间 
1 字 节 18.707 种 1.118 种 17.549 种 
1,024 字 节 0.025 种 0.002 种 0.023 种 
1.130 字 节 0.035 种 0.002 秒 0.027 种 


相 比 较 于 使 用 大 小 为 1 字 节 的 块 ， 使 用 大 小 为 1,024 字 节 的 块 的 性 能 会 有 非常 大 的 改 
进 。 然 而 , 表 3-1 同时 也 说 明了 使 用 较 大 的 块 尺寸 时 (这 意味 着 需要 用 到 的 系统 调用 会 
比较 少 )， 如 果 操 作 并 非 以 磁盘 块 大 小 的 倍数 执行 ， 会 使 得 性 能 变 差 。 尽 管 需要 用 到 的 
调用 比较 少 , 但 是 1.130 字 节 的 请 求 最 后 会 产生 非 对 齐 的 请 求 , 因此 效率 不 如 1,024 字 
节 的 请 求 。 

要 得 利于 此 性 能 提升 的 特性 ， 需 要 事先 具备 实际 块 大 小 之 类 的 知识 。 如 表 3-1 所 示 ， 实 
际 块 大 小 最 可 能 是 1,024、1,024 的 整数 倍 或 1,024 的 因子 。 例 如 ，/dev/zero 的 实际 块 
大 小 是 4,096 个 字 方 。 


块 大 小 


事实 上 ， 实 际 块 大 小 通 贡 是 512、1,024、2,048 或 4,096 个 字 布 。 


如 表 3-1 所 示 , 性 能 要 获得 最 大 的 提升 ， 只 需要 操作 的 数据 块 是 实际 块 大 小 的 整数 倍 或 
是 实际 块 大 小 的 因子 。 那 是 因为 块 是 内 核 和 醒 件 的 通用 语 。 所 以 ， 采 用 实际 块 大 小 或 症 
可 以 对 齐 实际 块 的 值 , 保 证 能 够 进行 对 齐 块 的 WO 请 求 以 及 避免 内 核 在 内 部 进行 非 必要 
的 工作 。 


为 了 知道 特定 设备 的 实际 块 大 小 ， 只 需要 使 用 stat () 系统 调用 (第 七 章 会 说 明 ) 或 
stat(1) 命令 。 然 而 ， 事实 上 ， 你 通常 不 需要 知道 实际 的 块 大 小 。 
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株 你 的 LO 操作 挑选 块 大 小 的 主要 日 的 是 不 要 选 到 奇怪 的 大 小 ， 例 如 1,130。 为 你 的 操 
作 使 用 此 类 大 小 的 块 ， 会 在 首次 送出 请 求 之 后 产生 非 对 齐 的 WO。 然 而， 选用 实际 块 大 
小 的 整数 信 或 因子 就 可 以 避免 韭 对 齐 的 请 求 。 只 要 你 所 选用 的 大 小 保持 与 块 对 齐 , 性 能 
就 不 会 变 差 。 较 大 的 尺寸 内 会 导致 系统 调用 变 少 的 结果 。 


因此 , 进行 WO 时 最 简单 的 选择 就 是 使 用 大 尺寸 的 缓冲 区 , 而 且 其 尺寸 是 实际 块 大 小 的 
倍数 。 例 如 4.096 字 : 和 8.192 字 市 就 可 以 运作 得 很 好 。 


当然 ,问题 在 于 程序 很 少 会 用 到 块 。 程序 一 般 只 处 理 字段 , 行 以 及 字符 ,而 不 会 处 理 块 
之 类 的 对 象 。 如 稍 早 所 述 ， 要 改变 这 一 情况 ， 程 序 可 以 使 用 用 户 缓冲 式 11O。 当 数据 被 
写 出 时 ， 它 会 被 存放 在 位 于 程序 地 址 空间 的 缓冲 区 。 当 缓冲 区 到 达 特 定 大 小 (缓冲 区 尺 
寸 ，bujfer size ) 整个 缓冲 区 的 内 容 会 被 一 次 写 出 到 磁盘 。 同 样 地 ， 读 取 数 据 时 ， 应 该 
使 用 大 小 为 缓冲 区 尺寸 的 对 齐 块 的 大 块 。 当 应 用 程序 发 出 大 小 奇特 的 (odd-sized) 读 
取 请 求人 时 , 缓冲 区 里 的 块 会 被 一 块 一 鼎 地 交 出 来 。 最 后 ， 当 缓冲 区 变 空 时 ， 男 一 个 大 型 
的 对 章 块 的 大 块 会 被 读 进 缓冲 区 。 如 果 缓 冲 区 的 大 小 是 正确 的 , 则 可 以 让 性 能 获得 显著 
的 提升 。 


尔 可 以 在 目 己 的 程序 中 实现 用 户 线 冲 机 制 。 的 确 , 许多 重要 的 应 用 程序 都 会 这 么 做 。 然 
而 ， 绝 大 多 数 的 程序 会 使 用 广 受 欢迎 的 标准 WO 链接 库 (标准 C 链接 库 的 一 部 分 ) 
提供 的 稳定 且 有 效 的 用 户 缓冲 方案 。 


标准 MO 
标准 C 链接 库 所 提供 的 标准 MO 链接 库 (党 简写 为 srdio) 会 提供 一 个 与 平台 无 美的 用 
户 缓冲 方案 。 标 准 MO 链接 库 简 单 易 用 并 且 功 能 强大 。 


不 同 填 FORTRAN 之 类 的 程序 语言 ,C 语言 不 会 包含 任何 内 置 支持 或 关键 字 (keyword ) 

来 提供 比 流 程控 制 、 算 术 等 更 高 级 的 功能 一 一 当然 也 不 会 支持 MO。 随 着 C 程序 语言 

的 发 展 , 用 户 开 发 出 了 数 个 标准 链接 库 来 提供 字符 串 操 作 、 数 学 例 程 .时 间 与 日 期 以 及 

IMO 之 类 的 基础 功能 。 随 着 时 间 的 推进 , 这 些 例 程 趋 于 成 部 ,并 于 1989 年 成 为 ANSIC 

标准 (C89)， 它 们 最 终 正式 成 为 标准 的 C 链接 库 。 虽 然 C95 与 C99 加 入 了 若干 新 接 
9 ,但 标准 1/O 链接 库 自从 于 1989 年 创建 以 来 就 未 曾 改变 过 


本 章 其 余 的 部 分 将 讨论 用 户 缓冲 式 VO ,因为 它 涉及 文件 UO 并 目 实 现 于 标准 C 链接 库 
一 一 也 就 是 经 标准 C 链接 库 打 开 、 关 闭 、 读 取 以 及 写 和 文件。 开发 者 必须 仔细 权衡 应 
用 程序 的 需求 和 行为 才 有 办 法 决定 应 用 程序 将 使 用 标准 1O、 自 制 的 用 户 缓冲 方案 或 直 
接 进行 系统 调用 。 
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C 标准 总 是 将 一些 细 洁 留 给 每 一 个 实现 , 而且 实 现 往往 会 加 入 额外 的 功能 。 如同 本 书 其 
余部 分 , 本章 将 说 明 现 代 Linux 系统 中 8libe 所 实现 的 接口 和 行为 ,值得 注意 的 十 Linux 
产 月 基 侧 标 ' 惟 。 


文件 指针 

标准 VO 例 程 不 会 直接 操作 文件 描述 符 , 而 会 使 有 它们 自己 的 标识 符 , 称 为 “文件 指针 
{file pointer)。 在 C 链接 库 之 内 ,文件 指针 会 峡 射 至 一 个 文件 描述 符 。 文 件 指针 会 被 表 
示 成 -个 指向 typedef 所 定义 的 FILE 结构 的 指针 (定义 于 <stdio.h>)。 


在 标准 UVO 用 语 中 , 一 个 已 打开 的 文件 称 为 “ 流 ”(srream)。 流 可 能 会 被 打开 以 供 读 取 
(输入 流 )、 写 人 (输出 流 ) 或 读 写 (输入 /输出 流 )。 


打开 文件 
要 打开 文件 以 备 通 过 topen1fl) 该 取 或 写 人 : 


#4inceclude <atdio.h> 


FILE * fopen (conat char *path, const char *mode);} 


此 国 数 会 根据 指定 的 模式 打开 文件 path， 并 将 它 关 联 到 一 个 新 的 硫 。 


mode 参数 用 来 摘 术 如何 打开 所 指定 的 文件 。 它 的 值 可 能 是 下 和 面 的 其 中 一 个 字符 申 ， 


打开 文件 以 备 读 取 。 流 位 于 文件 末端 。 
r+ 
打开 类 件 以 备 读 取 和 写 入 。 流 位 秆 义 件 六 纪 。 
打开 交 件 以 第 写 人 人 。 如 果 文 件 已 存在 , 它 会 被 截 短 成 零 长 度 ， 如 果 文 件 不 存在 ， 则 
窟 被 创建 。 流 位 于 文件 于 测 。 


打开 文件 以 备 读 取 和 写 入 。 如果 文 件 已 存在 , 它 会 被 截 短 成 零 长 度 , 如 果 文 件 不 存 
在 ， 则 会 被 创建 。 流 位 于 文件 开端 。 
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打开 文件 以 备 写 和 并且 进入 附加 模式 。 如 果 文 件 不 存在 , 则 会 创建 。 流 位 于 文件 末 
端 。 所 写 人 的 数据 会 被 附加 到 文件 末端 。 
己 + 


打开 文件 以 备 读 取 和 写 入 并 且 进 入 附加 模式 。 如 果 文 件 不 存在 , 则 会 创建 。 流 位 寸 
文件 末端 。 所 写 人 的 数据 会 被 附加 到 文件 未 师 。 


moae 参数 中 还 可 以 包含 字符 b， 虽 然 在 Linux 上 总 是 会 忽略 此 值 。 有 些 操作 系 
统 会 以 不 同方 式 来 处 理 文本 文件 和 二 进 制 文 件 ， 而 b 模式 可 要 求 fopen1y 以 
. 二 进 制 模式 打开 文件 。 如 同 与 POSIX 兼容 的 所 有 和 承 统一 样 ，Linux 则 会 以 相同 
的 方式 来 处 理 文本 文件 和 二 进 制 文件 。 





执行 成 功 上 时 ，fopen() 会 返回 一 个 有 效 的 FILE 指针 ; 执行 失败 时 ， 它 会 返回 NULL 
并 且 将 errnc 设 定 为 适当 的 值 。 
例如 ， 下 面 的 程序 代码 会 打开 /etc/manifest 以 备 读 取 并 将 它 关联 到 stream;: 

FILE *st ream; 


stream = fopen ("vetc/manilftest", "r")': 


if (!stream) 
/* 错误 */ 


经 文件 描述 符 打 开 流 
国 数 Eaopen {) 可 将 一 个 已 打开 的 文件 描述 符 (£9) 转换 成 流 : 

#include <atdio.h> 

FILE * fdopen (int fd, congst char *mode); 
mode 参数 的 可 能 值 和 fopen1{) 一 样 ， 而 且 必 须 茹 容 干 最 初 打 开 文 件 描 述 符 时 所 使 用 
的 模式 。 你 可 以 指定 w 和 w+ 等 模式 ,但 是 不 会 造成 项 短 的 结果 。 流 位 于 相关 联 文 件 
描述 符 的 文件 位 置 上 。 然 而 ， 这 么 做 也 是 合法 的 。 


文件 描述 符 被 转换 成 流 后， 不 应 该 再 直接 以 文件 描述 符 来 进行 WO。 请 注意 ， 文 件 描述 
符 并 未 重复 ， 而 只 是 被 关联 到 一 个 新 的 汶 。 关 闭 流 的 同时 也 会 关闭 文件 描述 符 。 


执行 成 功 时 ，fdopen() 会 返回 一 个 有 效 的 文件 指针 ; 执行 失败 时 ， 它 会 返回 NULL。 
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例如 ， 下 面 的 程序 代码 会 由 open () 系统 调用 打开 /home/kidd/map.txt， 并 使 用 支持 的 
{backing) 文件 描述 符 创 建 相关 联 的 流 ，; 


FILE *Sstream:; 
int fd; 
fd = open ("home/kidd/map .txt", O_RDONTY):; 
if {ff9 == -1) 
/* 错误 */ 
stream = fdopen (fd, "rr"); 


if tristream! 
7 家 钳 误 | 


关闭 流 

fclose() 国 数 可 用 于 关闭 指定 的 琉 : 
#include <BtdioD ,hh> 
int fclose (FILE *atream); 


任何 经 缓冲 而 尚未 写 入 磁盘 的 廊 件 首先 会 被 刷新 (flush) 至 磁 筑 。 执 行 成 功 时 , fclose() 
会 返回 0， 执行 失败 时 ， 它 会 返回 EOF 并 且 将 errno 设 定 为 适当 的 值 。 


关闭 所 有 流 
Ecloseall1({) 国 数 可 用 于 关闭 关联 到 当前 进程 的 所 有 流 , 包括 标准 输入 、 标准 输出 以 
及 标 堆 乌 话 : 

#define _GNU SOURCE 

#include <stdioc.h> 


int fcloseall (void})y 


关闭 之 前 ， 所 有 流 会 被 刷新 至 磁盘 。 此 函数 通常 会 返回 0， 它 是 Linux 特有 的 功能 。 


从 流 中 读 取 

标准 C 链接 库 实 现 了 数 个 函数 (从 常见 的 到 罕见 的 都 有 ), 可 用 于 读 取 一 个 已 打开 的 流 。 
本 市 将 介绍 三 种 最 常见 的 读 取 操 作 ; 一 次 读 取 一 个 字符 、 一 次 读 取 一 整 行 以 及 读 取 二 进 
制 数 据 。 为 了 从 流 中 读 取 ， 必 须 以 适当 的 模式 打开 一 个 输入 流 ， 也 就 是 w 或 a 除外 的 
任何 有 效 的 模式 。 


in 
-eh 


SU 


一 次 读 取 一 个 字符 
很 多 时 候 , 理想 的 UVO 操作 方式 就 是 一 次 读 取 一 个 字符 。 国 数 fgetc() 可 用 村 从 一 个 
流 中 读 取 一 个 字符 ;: 

#include <atdio.h> 

int fgetc (FILE *stream); 
此 函数 会 从 stream 读 取 下 一 个 字符 , 把 它 从 unsigned char 转型 成 int 并 返回 。 
转型 的 目的 是 提供 是 够 的 空间 给 end-of-file 或 错误 的 通知 : 返回 值 为 EOF 就 是 这 种 情 
况 。igetc() 的 返回 值 必须 被 存放 在 int 变量 中 。 将 它 存 放 在 char 变量 中 是 -一 种 贡 
见 但 范 辽 的 错 性 。 
F 面 的 范例 程序 代码 会 从 stream 读 取 一 个 字符 ， 检 查 错误 ， 然 后 以 char 数据 类 型 
答 出 结果 : 


nt Cs 
C = tgetc (streami):; 
Tf {Ee se EAF) 

/* 错误 */ 
1 Se 


Printf 【= 于 CC (char}) c}): 


由 stream 所 指 同 的 流 必 须 被 打开 以 备 读 取 。 


将 字符 放 回 
标准 MO 提供 了 一 个 函数 来 将 一 个 字符 推 回 流 , 让 你 可 以 “ 偷 看 一 下 ” 流 ， 如 果 它 不 是 
你 想 要 的 字符 ， 你 可 以 把 它 还 回去 : 


#include <stdio.h> 


int ungetc (int cS, FILE *atream}; 


调用 此 函数 就 可 以 把 c (会 被 转型 成 unsigneqd char) 推 回 stream。 执 行 成 功 时 
会 返回 c; 执行 失败 时 会 返回 ECF 。 随 后 读 取 stream 会 返回 c。 如 果 有 多 个 字符 被 
推 回 ， 则 它们 会 以 相反 的 顺序 被 运 回 一 一 也 屿 是 最 后 被 推 回 的 字符 会 首先 被 外 回 。 
POSIX 规定 只 有 单个 推 回 操作 可 以 保证 执行 成 功 而 不 会 干扰 到 读 取 请 求 .。 有 些 实现 只 多 
计时 个 推 回 操作 ，Linux 则 允许 无 限 多 个 推 回 操作 ,只 要 有 内 存 可 供 使 用 。 当 然 ， 单 个 
推 回 操作 通 第 会 执行 成 功 。 
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调用 ungetc() 之 后 ,如 果 在 发 出 读 取 请 求 之 前 调用 了 一 个 查找 浮 数 (参见 “查找 流 ” 
一 节 ), 将 使 得 被 推 回 的 所 有 字符 被 丢弃 。 此 情况 会 出 现在 一 个 进程 的 各 个 线程 之 间 , 因 
为 这 些 线程 会 共享 缓冲 区 。 
读 取 一 整 行 
国 数 fgets() 可 用 于 从 所 指定 的 流 读 取 一 个 字符 帅 : 

#include «<stdio.h> 

char * fgets (char *str, int size, FILE *gtream): 
此 函数 会 从 stream 读 取 size-1 个 字 市 并 且 将 结果 存 入 str。 读 进 这 些 字 刷 后， 线 
冲 区 会 被 存 进 一 个 null 字符 (\ 0)。 读 到 一 个 EOF 或 一 个 newline 字符 后 ， 使 会 停 
目 读 取 的 动作 。 如 朵 读 到 一 个 newline 字符 ， 则 \a 会 馈 存 人 str。 


执行 成 功 时 会 返回 str; 执行 失败 时 会 退回 NULL 。 


例如 ， 

char buf [LINE MANX]; 

if {lfgets (buf, LINE_ MAX, st ream})) 

| 稚 咒 nj 

POSIX 将 LINE_MAX 定义 于 <1limits.hs>: 它 是 POSIX 行 操作 接口 所 能 处 理 的 输入 
行 的 最 大 尺寸 。Linux 的 C 链接 库 并 无 此 类 限制 一 一 输入 行 可 以 是 任何 尺寸 。 具 可 移 
植 性 的 程序 可 以 使 用 LINE_MAX 以 保安 全 ,在 Linux 上 它 会 被 设 定 为 相对 较 大 的 值 。 
Linux 特有 的 程序 并 不 需要 担心 输入 行 的 尺寸 限制 。 


读 取 任意 字符 串 

尽管 fgets({) 所 进行 的 基于 行 的 读 取 操作 是 有 用 的 ， 但 是 也 经 常 造成 困扰 。 有 时候 ， 
开发 者 可 能 会 想 使 用 newline 以 外 的 定 界 符 {delimiter); 有 了 时 候 ， 开 发 者 可 能 不 想 使 
用 任何 定 界 符 一 一 而且 很 少 有 开发 者 会 想 将 定 界 符 存 人 缓冲 区 ! 事实 上， 在 所 返回 的 
缓冲 区 中 存 人 newline 字符 极 少 会 出 现 正确 的 结果 。 


将 fgets{) 换 成 fgetc() 并 不 难 。 例 如 ， 下 面 这 段 程 序 代 码 可 以 从 stream 将 n-1l 
个 字 节 读 进 str， 然 后 附加 一 个 \0 字符 : 


Char *s: 
in Cs 


号 = stir; 
while 1--n » 0 && (0 = fgetce stream)l}) = EOQF) 


3 
1 
地 
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这 段 程序 代码 还 可 以 被 扩展 成 过 到 3a 所 指定 的 定 界 竺 ( 在 此 例 中 , 它 不 可 以 古 一 个 null 
字符 ) 时 停止 读 取 : 


ChAar *s} 
int cc = 0; 
S 三 Str: 
while 1--n > 0 && {2 = fgetc (lstream}} = FOF && (i*s++ = Cc) ls 站) 
If (Cr == A} 
二 一 一 与 i 
| ee 
十 名 


将 G 设 定 成 \n 可 提供 与 fgets{) 相似 的 行为 ， 会 减 去 存 人 缓冲 区 的 newline 字符 。 


视 fgets() 的 实现 而 定 ， 此 变化 可 能 会 让 程序 的 运行 速度 变 慢 ， 因 为 它 会 重复 调用 
fgetc()。 然而, 此 问题 不 同 于 前 面 的 da 范例 所 呈现 的 问题 | 尽管 这 段 程序 代码 会 带 
来 额外 的 函数 调用 开销 , 但 是 不 会 导致 议 bs=1 执行 dd 所 带 来 的 系统 调用 的 开销 以 及 
韭 对 齐 IO 的 沉重 负担 。 后 者 会 造成 比较 大 的 问题 。 


读 取 二 进 制 数据 
对 于 某 些 应 用 程序 而 言 ， 只 是 读 取 个 别 的 字符 或 输入 行 是 不 够 的 。 有 了 时候， 开发 者 会 想 
读 写 复 杂 的 二 进 制 数据 ， 例 如 C 的 结构 。 为 此 ， 标 崔 IO 链接 库 提 供 了 fread1(1): 
#include <stdio.h> 
size 七 fread (void *buf, size t gsize, gize 七 nr, FILE *stream); 
fread() 可 从 stream 将 数据 读 取 到 buf 所 指 同 的 缓冲 区 ， 所 读 取 的 字 节 数目 由 
size*nr 来 决定 (数据 中 共有 nr 个 元 素 , 每 个 元 素 上 共有 size 个 字 节 )。 文件 指针 会 
前 进 实 际 所 读 取 到 字 古 数 ，。 
执行 成 功 时 ，fread() 会 返回 所 读 取 到 的 元 素数 目 (而 不 是 字 节 数目 )。 执 行 失败 时 ， 
它 会 退回 一 个 小 于 nr 的 值 ， 指 出 发 生 了 错误 或 EOF ( 读 取 到 了 文件 末端 )。 可 惜 ， 若 
不 使 用 ferror() 和 feof () (参见 “错误 与 EOF”)， 则 无 法 知道 所 发 生 的 是 这 两 种 
情况 的 哪 一 种 。 
因为 变量 大 小 、 对 齐 、 补 自 以 及 字 节 顺序 的 不 同 , 一 个 应 用 程序 所 写 人 的 二 进 制 数据 未 
几 可 以 被 不 同 的 应 用 程序 所 读 取 ， 或 者 未 必 可 以 被 不 同 机 器 上 的 相同 应 用 程序 所 读 取 。， 


= 
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对 齐 问 题 


所 有 机 器 架构 都 会 有 数据 对 齐 的 需求 ,程序 设计 者 往往 会 把 内 存 想 成 一 个 由 宇 节 所 构 
成 的 数组 。 然 而 ， 我 们 的 处 理 器 对 内 存 进行 读 写 操作 时 并 不 会 使 用 字 节 大 小 的 块 
(byte-sized chunk)。 事实 上 , 处 理 器 会 使 用 特定 的 粒度 (granulanity), 例如 LL 2、4. 
8 或 16 字 节 的 块 来 访问 内 存 。 由 于 每 个 进程 的 地 址 空间 均 从 地 址 0 开始 ,进程 必须 
从 其 值 为 粒度 整数 倍 的 地 址 开始 访 上 9。 


因此 ，C 的 变量 必须 存储 至 或 恋 取 自 对 齐 的 地 址 。 一 般 而 言 ， 变 量 会 自然 对 齐 , 这 是 
指 对 齐 相应 的 C 数 据 类 型 的 大 小 。 例 如 , 一 个 32 位 大 小 的 整数 会 对 齐 一 个 4 字 节 大 
小 的 边界 。 换 言 之 ， 一 个 int 值 将 被 存储 在 可 以 被 4 整除 的 内 存 地 址 上 。 

访问 未 对 齐 的 数据 将 付出 各 种 代价 , 这 取决 于 机 器 的 架构 。 有 些 处 理 器 可 以 访问 非 对 
齐 的 数据 , 但 是 会 在 性 能 上 付出 很 大 的 代价 。 有 些 处 理 器 无 法 访问 未 对 齐 移 数据 , 试 
图 这 么 做 会 造成 硬件 异常 事件 。 更 粳 的 是 , 有 些 处 理 器 会 默默 丢弃 低位 以 廊 使 地 址 被 
对 齐 ， 这 一 定 会 产生 令 人 意 想 不 到 的 行为 。 

一 般 情况 下 ,编译 右 会 自然 对 齐 所 有 数据 ,程序 设计 者 并 不 知道 数据 古 否 对 齐 。 处 理 
数据 结构 .、 手动 进行 内 存 管理 、 存储 二 进 制 数据 到 磁盘 以 及 通过 网 络 通信 均 会 把 对 章 
问题 带 到 台面 上 来 。 因 此 ， 系 统 程序 设计 者 应 该 要 熟悉 此 类 议题 ! 


第 八 草 会 更 深 人 地 探讨 对 齐 以 题 。 


ftreaal) 最 徊 单 的 例子 就 是 从 指定 的 访 读 进 只 有 一 个 元 泰 的 线性 字 证 : 


char bufisdl:;: 
SizZe.t nr: 


nr = fread {buf, sizeof (buf}, 1, stream).:; 
if tnr == 0) 
/Error */ 


介绍 fread{) 的 反 向 操作 fwritel) 时 ， 我 们 会 看 到 更 复杂 的 例子 。 


写 入 一 个 流 

和 读 取 操作 一 样 ， 标 准 C 链接 库 定义 了 许多 函数 用 于 写 人 一 个 已 打开 的 流 。 本 节 将 介 
绍 三 种 最 常见 的 写 人 操作 : 写 和 单一 字符 、 写 人 一 个 字符 串 以 及 写 人 二 进 制 数据 。 要 写 
入 至 一 个 流 ， 必 须 以 适当 的 模式 打开 一 个 输出 流 ， 也 就 是 除外 的 任何 有 效 的 模式 。 
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写 入 单一 字符 
fgetc() 的 反 向 操作 是 fputc(): 

#include <gtdio.h> 

int fputc (int c, FILE *stream); 
Fputc() 函数 会 将 参数 c (转型 成 unsigned char) 写 人 stream 所 指 千 的 流 。 执 
行 成 功 时 ， 它 会 返回 c; 执行 失败 时 ， 它 会 返回 EOF 并 且 为 errno 设 定 适 当 的 值 。 
fputct) 的 用 法 很 简单 : 


if {fputc 1'p', stream} == EOF) 


+* 错误 */ 
此 例会 将 字符 p 写 入 stream (此 流 必须 被 打开 以 备 写 人 入)。 


写 入 一 个 字符 串 
函数 fputs () 可 用 于 将 一 整个 字符 串 写 入 所 指定 的 流 : 
#include <stdioc.h> 


int fputs (const char *str, FILE *atream); 


fputs{) 会 将 参数 str 所 指向 的 以 null 分 隔 的 字符 串 全 都 写 入 参数 stream 所 指 问 
的 流 。 执 行 成 功 时 ，fputs({) 会 返回 一 个 非 负 值 ， 执 行 失败 时 ， 它 会 返回 EOF。 


下 面 的 例子 会 以 附加 模式 打开 文件 以 备 写 人 ,接着 将 指定 的 字符 串 写 人 与 文件 相关 联 的 
流 ， 然 后 关闭 流 : 


FILE *stream; 


Stream fopen {"journal .txt", "a").; 
if (!'stream) 
A/* 错误 */ 
if (fputs {"The ship is made of wood,.\n", stream}) == EOF) 


/* 错误 */ 


if (fclose lIstream) == EOF') 
/A* 错误 */ 
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写 入 二 进 制 数据 
当 程 序 需 要 写 人 复杂 的 数据 结构 时 , 使 用 个 别 的 字符 以 及 输入 行 是 无 法 受 善 处 理 的 。 要 
直接 存储 二 进 制 数据 ， 例 如 CC 变量， 可 以 使 用 标准 W/O 链接 库 所 提供 的 fwrite1(): 


#include <stadaio,.h» 


Bize t fwrite (void *buf, 
Size 七 size, 
size 七 nr, 
FILE *sgtream)} 


fwrite() 可 将 参数 buf 所 指向 的 数据 写 人 参数 stream 所 指向 的 流 ， 所 写 人 的 季 市 
数目 由 size*nr 来 决定 (数据 中 共有 nr 个 元 素 , 每 个 元 素 有 size 个 字 市 )。 文件 指 
针 会 前 进 实 际 所 写 人 的 字 节 数目 。 


执行 成 功 时 ，fwrite() 会 返回 所 写 入 的 元 素数 目 (而 不 是 字 节 数目 )， 执行 失败 时 ， 
它 会 返回 一 个 小 于 nr 的 值 ， 指 出 发 生 了 错误 。 


使 用 缓冲 式 I/O 的 简单 程序 

现在 让 我 们 来 看 一 个 例子 一 一 事实 上 这 是 一 个 完整 的 程序 ， 它 整合 进 了 本 章 亡 今 为 止 
所 介绍 的 许多 接口 。 此 程序 首先 会 定义 struct pirate， 接 着 以 读 类 型 声明 两 个 变 
量 。 此 程序 会 初始 化 其 中 一 个 变量 ， 随 后 将 它 写 人 磁盘 (也 就 是 经 输出 流 写 人 文件 
data) 。 然 后 此 程序 会 经 不 同 的 流 从 data 文件 将 数据 直接 读 回 struct pirate 的 为 
一 个 实例 。 最 后 此 程序 会 将 该 结构 的 内 容 写 人 标准 输出 : 


#include <stdaio., hs 


int main (veoid) 

{ 
FILE *in, *out.: 
struct pirate 1{ 


char name [100] ; /* 真实 姓名 */ 
unsigned long booty:; i* 以 英镑 为 单位 */ 
unsigned int peard_ljen; /* 以 英寸 为 单位 */ 


} p, blackbeard = { "Edward Teach", 950, 48 }; 


CU fopen 【于 回避 上 上 站” "w"); 
if tiout) 1 
perror ("fopen"); 
return 1; 


} 


if (lfwrite (&blackbeard, sizeof {struct pirate)}, 1, cut}) 1 
Perror ("fwrite"); 


I 
者 


86 第 


retyurn 1:; 


} 


if {fcilose (out)}) { 
perror ("fclose"); 
return 1: 

} 


in = fopen ("data", "rr"): 
if {rin) { 
Perror ("fonpen"); 
return 1:; 


} 


if 1t!1fread (&B, Sizeof struct pliratey, 1, in)}) 1 
Perror ("fread"™).: 
returrn 


[| 
本 


} 


if {fciose (in}) { 
perror {"fclose"}:; 
return 1; 

} 


printf ("name=\"%®Ss"\" booty=%lu beard_len=$®Su\n", 
p.name, p.booty, Pp.beard len): 


return 0; 
} 


当然 ， 其 输出 的 是 一 开始 所 设 定 的 值 : 


name="Edward Teach™" booty=9350 beard leri=48 


此 外 ， 请 牢记 ,因为 变量 大 小 、 对 齐 等 差异 , 一 个 应 用 程序 所 写 入 的 二 进 制 数据 未 必 可 
以 被 其 他 应 用 程序 读 取 。 也 就 是 说 ,不 同 的 应 用 程序 甚至 是 不 同 机 器 上 的 相同 应 用 程序 ， 
未 必 能 够 正确 读 回 fwrite() 所 写 人 的 数据 。 在 我 们 的 例子 中 ,应 该 考虑 unsignea 
long 是 否 会 有 所 不 同 , 或 者 补 白 的 数量 是 否 会 有 种 种 变化 。 只 要 你 是 在 使 用 特定 ABI 
的 特定 类 型 机 器 上 运行 应 用 程序 ， 这 些 事情 保证 都 会 维持 不 变 。 


查找 一 个 流 
操纵 当前 的 流 位 置 往往 会 很 有 用 。 或 许 是 应 用 程序 正在 读 取 一 个 基于 记录 的 复杂 文件 ， 
需要 来 回 跳跃 ， 亦 或 许 是 流 需要 被 重新 设 成 文件 位 置 零 。 无 论 是 何 种 情况 ,标准 IO 链 


接 库 都 提供 了 一 系列 功能 相当 于 1seek() 系统 调用 的 接口 。 例 如 , fseek() 函数 (最 
常见 的 标 淮 IO 查找 接口 ) 会 根据 offset 与 whence 来 操纵 stream 的 文件 位 置 ， 
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#include <Btdic,.h> 

int faeeaek (FILE *gtream, long offgset, int whence); 
如 果 whence 的 值 被 设 为 SEEK_ SET， 则 文件 位 置 会 被 设 成 of fset，; 如 果 whence 
的 值 被 设 为 SEEK_CUR， 则 文件 位 置 会 被 设 成 当前 位 置 加 上 offset; 如 果 whence 
的 值 被 设 为 SEEK_END， 则 文件 位 置 会 被 设 成 文件 末端 加 上 of fset。 
执行 成 功 了 时，fseek () 会 返回 0， 清 除 EOF 指示 器 并 取消 ungetc () 所 造成 的 影响 
(如 果 有 的 话 )， 发 生 错误 时 ， 它 会 返回 -1 并 且 将 errno 设 定 为 适当 的 值 。 最 常见 的 
错误 是 无 效 的 流 (EBADF) 以 及 无 效 的 whence 参数 (EINVAL)， 
此 外 ， 标 准 WO 链接 库 还 提供 了 fsetpos1) ， 

#include <atdio.h> 

int fsetpos (FILE *stream, fpos 七 *poas); 
此 函数 会 将 streanm 的 流 位 置 设 成 pos，。 它 的 功能 如 同 将 whence 参数 设 为 SEEK_ SET 
的 fseek () 。 执 行 成 功 时 ， 它 会 返回 0， 否 则 ， 它 会 返回 -1 并 且 将 errno 设 定 成 适当 
的 值 。 之 所 以 提供 此 函数 (以 及 它 的 反 向 操作 fgetpos () ， 稍 后 会 提 到 )， 只 是 因为 其 
他 ( 非 Unix 的 ) 平台 具有 复杂 的 数据 类 型 可 以 表示 流 位 置 。 在 其 他 平台 上 ， 如 果 C 的 
long 数据 类 型 不 够 使 用 ,此 国 数 是 将 流 位 置 设 成 任意 值 的 唯一 方法 .如果 想 计 你 的 Linux 
应 用 程序 移植 到 所 有 可 能 的 平台 上 ， 就 不 应 该 让 它们 使 用 此 接口 ， 尽 管 它们 可 以 这 么 做 ， 
标准 IO 链 搂 库 还 提供 了 rewind1) 以 作为 一 个 捷径 ， 

#include <stdio.,h> 


void rewind (FILE *astream); 


如 下 的 调用 ， 


rewind (stream}: 


会 将 位 置 重新 设 定 成 流 的 开头 。 除 了 还 会 清除 错误 指示 器 ， 它 的 功能 如 同 : 


fseek (stream, 0, SEEK SET) ， 


注意 , rewind() 没有 返回 值 , 因此 无 法 直接 传达 错误 的 情况 ， 想 人 确定 发 生 错 误 的 调用 
者 ， 调 用 此 函数 之 前 应 该 先 清除 errno， 以 便 事 后 检查 此 变量 是 否 为 非 零 值 。 例 如 ; 


errno = 0: 
rewind Istream’: 
if rerrno) 


站 二 错 课 wi 
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取得 当前 流 位 置 
不 同 于 lseek(), fseek{) 并 不 会 返回 更 新 过 的 位 置 。 为 此 ， 另 外 提供 了 一 个 接口 。 
ftell{) 图 数 可 用 于 返回 streanm 的 当前 流 位 置 : 

#inicslude <stdio.h> 


long ftell FILE *etream);} 
发 生 错 误 时 ， 它 会 返回 -1 并 且 将 errno 设 定 成 适当 的 值 。 
此 外 ， 标 准 WO 链接 库 还 提供 了 fgetpos1{): 
#include <stdioh.h> 
int fgetpos (FILE *atream, fposa 七 *poa); 
执行 成 功 时 ，fgetpos () 会 返回 0 并 日 将 stream 的 当前 社 位 置 放 于 pos ; 执行 失 


败 时 ， 它 会 返回 -1 并 且 将 errno 设 定 成 适当 的 值 。 如 同 fsetpos () ， 之 所 以 会 提 
供 fgetpos() ， 只 是 因为 非 Linux 平台 具有 复杂 的 文件 位 置 数据 类 型 。 


刷新 一 个 流 
标准 MO 链接 库 提供 了 一 个 接口 ,可 用 于 将 用 户 缓 冲 区 写 出 到 内 核 ,以 确保 经 write 1() 
写 人 至 流 的 所 有 数据 可 以 被 刷新 。fflush() 函数 提供 了 此 功能 ; 


#include <stdio.hy> 


int fflush (FILE *astream}): 


调用 此 函数 时 , stream 所 指向 的 流 中 的 任何 未 被 写 至 内 核 的 数据 会 被 刷新 至 内 核 。 如 
果 stream 为 NULL， 则 进程 中 所 打开 的 所 有 输入 流 均 会 被 刷新 。 执 行 成 功 时 ， 
fflush() 会 返回 0; 执行 失败 时 ， 它 会 返回 EOF 并 且 将 errno 设 定 成 适当 的 值 。 


要 了 解 Efl1ush() 所 造成 的 影响 ,你 必须 了 解 C 链接 库 所 维护 的 缓冲 区 与 内 核 的 缓冲 
机 制 有 何 差 异 。 本 草 所 介绍 的 所 有 调用 用 到 的 由 C 链接 库 负 责 维 护 的 缓冲 区 位 于 用 户 
室 间 而 非 内 核 空 间 。 这 就 是 性 能 可 以 改善 的 原因 你 竺 在 用 书 室 间 ， 因 此 运行 的 是 
用 户 的 程序 代码 , 不 需要 进行 系统 调用 。 只 有 在 必须 访问 磁盘 或 其 他 存储 媒介 时 才 需 要 
进行 系统 调用 。 





fflush{) 仅 会 将 用 户 缓 冲 式 数据 写 出 至 内 核 缓冲 区 。 如 果 不 使 用 用 户 缓冲 机 制 而 直接 
使 用 write(), 效果 是 一 样 的 。 这 并 不 保证 数据 会 被 实际 提交 给 任何 存储 媒介 一 一 对 
于 这 种 需求 可 以 使 用 fsync (} 之 类 的 系统 调用 (参见 第 二 章 的 “同步 化 TO” )。 最 有 
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可 能 的 做 法 是 ， 你 会 想 在 调用 fflush1() 之 后 紧 接 着 调用 fsync () : 也 就 是 先 将 用 
户 缓冲 区 写 出 至 内 核 ， 再 将 内 核 的 缓冲 区 写 出 至 磁盘 。 


首 误 与 EOF 
有 些 标准 MO 接口 ， 例 如 fread()， 无 法 有 效 地 将 执行 失败 的 情况 传达 给 调用 者 ， 因 
为 它们 没有 提供 任何 机 制 用 于 区 分 错误 与 EQF, 对 于 这 些 调用 以 及 其 他 场合 , 这 可 以 检 
查 特定 流 的 状态 ,以 确定 它 到 底 是 过 到 了 错误 还 是 抵达 了 文件 末 兽 。 为 此 ,标准 IO 链接 
库 提供 了 两 个 接口 。 函 数 ferror () 用 于 测试 stream 之 上 是 否 设 定 了 错误 指示 颖 ， 
include <*astdio.h> 
int ferror (FILE *etream); 
错误 指示 器 由 其 他 的 标准 LO 接口 所 设 定 , 用 于 反映 错误 状态 。 如 果 设 定 了 指示 器 ， 则 
此 国 数 会 退回 一 个 非 零 慎 ， 否 则 返回 0 。 
国 数 feof () 用 于 测试 stream 之 上 是 否 设 定 了 EOF 指示 益 ， 
include <stdio.h> 
int feaeof (FILE *gtream); 
EOF 指示 器 由 其 他 的 标准 IO 接口 所 设 定 ， 用 于 反映 抵 太 了 文件 的 末端 。 如 果 设 定 了 
指示 器 ， 则 此 函数 会 返回 一 个 非 零 值 ， 否 则 返回 0。 
国 数 clearerr() 用 于 清除 stream 之 上 的 错误 与 EOF 指示 器 : 
#include <stdio.h> 
void clearerr (FILE *Stream); 
此 函数 没有 返回 值 ， 而 且 也 不 会 失败 (无 村 知道 所 提供 的 流 是 否 有 效 )。 你 应 该 在 检查 


错误 与 EOF 指示 器 之 后 调用 clearerr{)， 因 为 你 无 法 在 事后 挽回 被 清除 的 指示 器 。 
例如 : 


/* 'f， 是 个 有 效 的 流 “/ 


if (ferror {f})) 
Printf ("Error on fl“n").; 


if (feof (E) ) 
printf fr"EQF on ff!\n"); 


Clearerr (fFf).: 
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取得 相应 的 文件 描述 符 

有 上 时， 取得 支持 指定 流 的 文件 描述 符 会 很 有 用 。 例 如， 要 对 流 进行 系统 调用 时 ， 如 果 不 
存在 相关 联 的 标准 MO 函数 ， 则 可 以 通过 它 的 文件 描述 符 。 要 取得 支持 (backing) 流 
的 文件 扩 述 符 ， 可 使 用 fiieno |(): 


#include <Btdqio.h> 


int filenoe (FILE *gtream); 


执行 成 功 时 ，fileno{) 会 返回 与 stream 相关 联 的 文件 描述 符 ， 执行 失败 时 ， 写 会 
返回 -1。 这 只 会 发 生 在 指定 了 无 效 的 流 时 ， 在 此 情况 下 ，fileno() 会 把 errno 设 
定 成 EBADF，。 


标 淮 1O 调用 与 系统 调用 混用 时 通常 不 会 看 到 警告 信息 。 使 用 fileno() 时 ， 程序 设 
计 者 一 定 要 谨慎 为 之 , 以 确保 所 进行 的 是 适当 的 行为 。 尤其 是 在 操纵 支持 的 文件 描述 符 
前 先 刷新 流 可 能 是 明智 之 举 。 你 绝对 不 应 该 将 实际 的 WO 操作 混合 在 一 起 。 


im 

控制 与 缓冲 机 制 
标准 的 MO 链接 库 实现 了 三 种 用 户 缓冲 机 制 ,并 且 提 供 了 一 个 接口 让 开发 者 可 以 控制 缓 
冲 区 的 类 型 和 大 小 。 不 同类 型 的 用 户 缓 冲 机 制 用 于 不 同 的 目的 , 适合 不 同 的 情况 。 下 面 
是 三 种 选项 ， 


未 经 缓冲 (Unpbuffered ) 
未 执行 用 户 缓冲 机 制 。. 数 据 会 被 直接 提交 给 内 核 。 由 于 这 是 执行 用 户 缓 冲 机 制 的 对 
世面 ， 所 以 不 党 被 用 到 。 标 准 错误 在 默认 情况 下 是 未 经 缓冲 的 。 


经 行 缓 中 (Line-buffered) 
所 执行 的 缓冲 机 制 以 行为 基础 。 每 遇 到 一 个 newline 字符 ， 缓 冲 区 就 会 被 提交 给 
内 核 , 行 缓 促 机 制 适用 于 输出 至 屏幕 的 流 , 因 此 ,终端 机 会 默认 使 用 此 缓 溃 机 制 ( 标 
准 输 出 在 默认 情况 下 是 经 行 缓 冲 的 )。 


经 块 组 中 (Block-buffered) 
所 执行 的 缓 吕 机 制 以 块 为 基础 ,本 童 一 开始 所 探讨 的 就 是 这 种 类 型 的 缓冲 机 制 , 适 
用 于 文件 。 默 认 情 况 下 ， 与 文件 相关 的 所 有 流 都 是 经 块 缓冲 的 。 标 准 IO 会 使 用 
full buffering 【全 缓冲 ) 这 个 术语 来 代表 block buffering ( 块 缓 冲 )。 


遂 兽 ,默认 的 缓冲 类 型 就 是 正确 和 理想 的 缓 吕 机制。 然而 标准 MO 链接 库 提供 了 一 个 接 
口 ， 用 于 控制 所 使 用 的 缓冲 类 型 ， 
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#include <stdaio.h> 

int setvbuf (FILE *etream, char *buf, int mode, gize 七 size); 
setvbuf () 国 数 会 将 stream 的 缓 神 类 型 设 定 成 moae， 其 值 必须 是 下 面 的 其 中 一 个 : 
_IONBE 

未 经 缓冲 
_IOLBF 

经 行 绥 冲 
_IOFBF 

经 块 缓 冲 
_IONBF (在 此 情况 下 会 忽略 buf 与 size) 除外 , buf 会 指向 一 个 大 小 为 size 字 市 
的 缓冲 区 ， 而 标准 1/O 将 以 此 作为 特定 流 的 缓冲 区 。 如 果 buf 的 值 为 NULL ， 则 glibe 
会 自动 分 配 一 个 绪 促 区。 
打开 流 之 后 必须 调用 setvbuf () 函数 , 而 且 必 须 在 对 流 执 行 任何 其 他 操作 之 前 进行 。 
执行 成 功 时 ，setvbuf() 会 返回 0， 否 则 ， 它 会 返回 非 却 值 。 
如 果 提 供 了 缓冲 区 , 关闭 流 的 当时 它 必 须 存在 ,一 个 常见 的 错误 就 是 把 缓冲 区 声明 成 一 
个 自动 变量 , 而 在 流 被 关闭 之 前 已 经 离开 自动 变量 的 有 效 范 围 。 尤其 是 小 心 不 要 把 绥 冲 
区 设 定 为 main() 的 局 部 变量 ,然后 又 未 显 式 关闭 流 。 例 如 : 

#include <stdio.h> 

int main (vold)} 

char buf [BUFSIZ]; 


1x 以 BUFSIZ 大 小 的 缓冲 区 将 stdout 设 定 成 经 块 缓冲 */ 
setviouf (stdeut, buf, _IOFBF, BUFSIZ2): 
[a ee 于吉 记 半 


TEtuUrn 0; 


修正 此 缺陷 的 方法 : 在 离开 有 效 范 围 之 前 显 式 关闭 流 ， 或 者 将 buf 设 定 为 一 个 全 局 变 
量 。 


一 般 来 说 , 开发 者 并 不 需要 担心 流 上 的 缓冲 机 制 ,标准 错误 除外 , 终端 机 是 经 行 缓冲 的 ， 
这 是 可 以 理解 的 。 文 件 是 经 块 缓冲 的 , 这 也 是 可 以 理解 的 。 块 缓冲 机 制 的 默认 组 名 区 大 
小 为 BUFSIZ ( 定 闵 于 <stdioc.hn>), 而 且 它 通常 是 一 个 理想 的 选择 (典型 块 大 小 的 
许多 倍 )。 
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线程 安全 

线程 就 是 单一 进程 中 的 多 道 执 行 流程 。 将 其 概念 化 的 一 个 方式 就 是 将 它们 视 为 共享 地 址 
空间 的 多 个 进程 。 线 程 随时 都 可 以 运行 , 而 且 可 以 改写 共享 的 数据 , 除非 数据 的 访问 需 
要 注意 同步 问题 或 将 它 设置 为 thread-local (线程 局 部 变量 ， 也 就 是 为 每 个 线程 准备 一 
个 副本 )。 支 持 线程 的 操作 系统 会 提供 锁定 机 制 (用 于 确保 相互 排斥 的 程序 结构 ) 以 确 
保 线 程 不 会 彼此 踩 到 对 方 的 脚 。 标 准 VO 会 使 用 这 些 机 制 。 尽管 如 此 ,它们 通常 不 够 使 
用 。 例 如， 有 了 时 你 会 想 锁定 一 群 调用 ,将 临界 区 (critical region, 执行 时 不 会 被 另 一 个 
线程 所 干扰 的 程序 代码 段 ) 从 一 个 VO 操作 扩展 到 多 个 。 在 其 他 情况 下 ,你 可 能 想 彻底 
取消 锁定 机 制 以 提高 效率 ( 注 1) 。 本 节 中 ， 我 们 将 讨论 如 何 完成 这 两 件 事 。 

标准 MO 函数 本 来 就 有 具备 线程 安全 (thread-safe) ,在 内 部 , 它们 会 关联 到 一 个 锁 (lock) 
以 及 一 个 锁定 计数 (lock count), 而 且 每 个 已 打开 流 会 被 关联 到 一 个 拥有 线程 (owning 
thread )。 任 何 线程 在 发 出 任何 IO 请 求 之 前 必须 先 取得 “ 锁 "， 成 为 拥有 线程 。 两 个 或 
两 个 以 上 的 线程 操作 相同 的 流 时 不 能 干扰 标准 WO 操作 ,因此 在 单一 国 数 调用 的 执行 环 
境内 ， 标 准 IO 操作 是 不 可 分 割 的 。 

当然 ， 实 际 使 用 时 , 许多 应 用 程序 所 需要 的 原子 性 (atomicity) 大 于 个 别 函数 调用 的 层 
次 。 举 例 来 说 ,如果 有 多 个 线程 发 出 写 入 请 求 , 虽然 个 别 的 写 入 操作 不 会 相互 干扰 以 及 
产生 混乱 的 输出 , 但 是 应 用 程 认可 能 会 希望 所 有 写 入 请 求 都 能 够 完成 而 不 会 中 断 。 为 了 
区 许 这 么 做 ， 标 准 MO 链接 库 提供 了 一 系列 的 函数 ， 可 用 于 个 别 操作 与 流 相关 的 销 定 。 


手动 文件 锁定 
国 数 flockfile() 会 等 到 stream 不 再 被 锁定 后 取得 闫 的 型 , 递增 央 赴 计数 , 成 为 
流 的 拥有 线程 ， 然 后 返回 : 
#include <atdio.h> 
void flockfile (FILE *stream); 
函数 funlockfile() 用 于 递减 与 stream 相关 联 的 锁定 计数 : 
#include <stdio.h»> 


voild funlockfile (FILE *stream); 


如 果 销 定 计 数 变 为 考 ， 当 前 线程 会 放弃 流 的 所 有 权 ， 另 一 个 线程 则 可 以 取得 该 流 的 锁 。 


注 1: 一 般 情况 下 ,取消 锁定 机 制 会 号 致 各 种 问题 ,但 有 些 程序 可 能 会 显 式 实现 自己 的 线程 用 
法 ， 将 所 有 LO 委派 给 单一 线程 。 在 此 情况 下 ， 可 以 免除 镇 定 机 制 的 开销 。 
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这 些 调用 可 以 嵌 套 。 也 就 是 说 ， 丫 一 线程 可 以 多 次 调用 Elockfile(), 但 是 直到 进程 
进行 相同 次 数 的 ftunlockfilel) 调用 ， 流 才 会 被 解除 锁定 状态 。 


ftrylockfile!) 国 数 是 flockfilet) 的 不 受阻 挡 的 版 本 :; 


#include <stdio.h> 


int ftrylockfile (FILE *astream); 


如 果 stream 目前 已 被 锁定 ， 则 ftrylockfile() 什么 事 也 不 会 做 ， 和 而 会 并 即 退 回 
一 个 非 零 值 。 如 果 stream 目前 未 被 锁定 ， 则 它 会 取得 流 的 锁 ， 递 增 锁定 计数 ， 成 为 
stream 的 拥有 者 ， 然 后 返回 0。 


让 我 们 来 看 一 个 例子 : 
flaockfile (stream): 


fputs {"List of treasure:\n", streaml; 
fputs (”" (1) S500 gold coins\n", Stream)} 
fputs {" (2} wonderfully ornate dishware\n", stream); 


funlockfile :stream); 


虽然 个 别 的 fputs {) 操作 绝 不 可 能 造成 竞争 条 件 一 一 例如 , 最 后 的 结 朱 不 会 有 List 
of treasure” 与 其 他 文字 交叉 (interleaving ) 在 一 起 的 现象 , 但 是 对 这 个 相同 的 流 而 言 ， 
菇 它们 来 自 另 一 个 线程 的 另 一 个 标准 VO 操作 , 则 可 能 会 出 现 两 个 fputs() 调用 交叉 
的 现象 。 在 理想 的 情况 下 ， 一 个 应 用 程序 的 设计 不 会 让 多 个 线程 提交 IO 给 相同 的 流 。 
然而 如 果 你 的 应 用 程序 需要 这 么 做 , 那么 你 需要 范围 大 于 单一 函数 的 不 可 分 割 区 , 在 此 
情况 下 ，f1lockfile{) 以 及 相关 国 数 可 以 节省 你 的 时 间 。 


不 会 锁定 的 流 操 作 
之 所 以 要 对 流 进行 手动 锁定 , 还 有 第 二 个 理由 。 粒度 较 细 和 较 精 确 的 锁定 机 制 只 有 应 用 
程序 的 设计 者 能 够 提供 , 这 么 做 或 许可 以 尽量 减少 锁定 机 制 的 开销 以 及 改善 性 能 。 为 达 
到 这 个 目的 ，Linux 提供 了 一 系列 的 函数 ， 它 们 是 常见 的 标准 WO 接口 的 表亲 ,但 起 不 
会 使 用 任何 锁定 机 制 。 它 们 实际 上 是 标准 VO 函数 的 不 会 锁定 的 版 本 : 

#9define GNU SOURCE 

#include <etdio.h> 

int fgetc unlocked (FILE *gtream); 

char *fgets unlocked {char *str, int size, FILE *atream);} 


Bize t fread unlocked (void *buf, size 七 eize, Size 七 nr, 
FILE *atream):; 


I 
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int tpute unlocked (int c, FILE *astream); 

int fputs unlocked (congt char *str, FILE *gtream); 

gize t fwrite unlocked (void *buf, size 七 size, size _t nr, 
FILE *gtream):; 

int fflush unlocked (FILE *stream);} 

int feof unlocked (FILE *atream):; 

int ferror unlocked (FILE *gtream);}; 

int fileno unlocked (FILE *gtream); 

voidq clearerr unlocked (FILE *gtream)} 


这 些 函 数 的 行为 如 同 它 们 的 会 锁定 的 表亲 一 样 ， 但 是 它们 不 会 检查 或 取得 st ream 榴 
锁 。 如 果 需 要 锁定 ， 则 程序 设计 者 必须 人 负责 手动 取得 并 释放 流 有 的 尔 。 


虽然 POSIX 替 标准 IO 函数 定义 了 一 些 不 会 锁定 的 变 体 ， 但 是 上 和 面 所 列 的 函数 者 不 
是 POSIX 定义 的 ,它们 全 都 是 Linux 特有 的 国 数 , 虽然 各 种 其 他 的 Unix 系统 支持 其 
子 集 。 


ee 万 
标准 MO 的 缺陷 

由 于 标准 TO 被 广泛 采用 ， 一 些 专 家 指出 了 其 中 的 人 缺陷。 有些 困 数 ， 例 如 fgets1()， 
有 时 会 不 太 合用 ， 有 些 函 数 ， 例 如 gecs () ， 太 过 可 怕 ， 应 该 排除 在 标准 之 外 。 


标准 WO 最 大 的 问题 在 于 性 能 受到 两 次 复制 的 影响 。 读 取 数 据 时 , 标准 WO 会 对 内 核 进 
行 read{) 系统 调用 ， 从 内 核 复制 数据 到 标准 MO 缓 促 区 。 如 来 有 一 个 应 用 程序 接着 
通过 标准 WO (例如 使 用 fgetc()) 送出 一 个 读 取 请 求 ， 则 数据 又 会 被 复制 一 次 ， 这 
次 会 从 标准 MO 缓冲 区 被 复制 到 所 提供 的 缓冲 区 。 写 入 请 求 则 逆向 运作 : 数据 从 所 提供 
的 缓冲 区 被 复制 到 标准 LO 缓 镍 区 ,而 后 通过 wrikel) 系统 调用 从 标准 MO 缓冲 区 租 
复制 到 内核 。 


另 一 种 实现 可 避免 两 次 复制 ,方法 是 由 每 个 读 取 请 求 返 回 -一 个 指针 指向 标准 1O 缓冲 区 。 
于 是 可 以 直接 读 取 标准 TO 缓冲 区 里 面 的 数据 , 而 不 需要 额外 的 复制 动作 。 万 一 应 用 程 
序 想 要 它 自己 本 地 缓冲 区 里 的 数据 (或 许 是 写 入 数据 )， 应 用 程序 通常 可 以 手动 进行 复 
制 。 这 个 实现 提供 了 一 个 接口 , 允许 应 用 程序 在 完成 读 取 缓 冲 区 中 特定 数据 块 的 操作 时 
送出 通知 。 


写 入 操作 稍微 复杂 一 点 , 但 是 仍然 可 以 避免 两 次 复制 的 情况 。 送 出 写 人 请 求 时 ,此 实现 
会 记录 指针 。 最 后 、 当 准备 刷新 数据 到 内 核 时 ， 此 实现 会 扫描 其 所 存储 的 指针 列表 ， 以 
便 写 出 数据 。 这 项 工作 可 通过 writev() 利用 分 散 一 聚集 (scatter-gather) MO 来 完 
成 ， 因 此 仅 进行 一 次 系统 调用 (我们 将 在 下 一 章 探讨 分 散 一 聚集 1/0)。 
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而 高 度 优化 的 用 户 缓冲 链接 库 可 用 于 解决 两 次 复制 回 题 的 实现 ,类 似 于 我 们 刚才 所 做 的 
讨论 。 此 外 ， 有些 开发 者 迹 择 实现 目 己 的 用 户 缓 促 解 决 方案 。 尽 省 有 这 些 替代 方案 ， 标 
准 IO 仍 广 受 欢 迎 。 


结束 语 
标准 WO 是 一 个 用 户 缓 冲 链接 库 ， 作 为 标准 C 链接 库 的 一 部 分 被 提供 。 如 果 不 沙 虑 它 
的 几 个 缺点 ， 可 以 说 它 是 一 种 有 效 而 且 受 欢迎 的 解决 方案 。 许 多 C 程序 设计 者 实际 上 
只 知道 标准 MO。 当然 ， 对 于 终端 IO ， 基 于 行 的 缓冲 机 制 最 为 理想 ， 标 准 IO 是 唯一 
的 选择 。 有 谁 曾 经 直接 使 用 wr ite() 指向 标准 输出 ? 
当下 面 有 任何 一 项 为 真 时 ， 就 可 以 使 用 标准 WO 一 一 一 般 来 说 还 包含 用 户 缓冲 机 制 ; 
*。 ”你 可 以 想象 到 多 次 系统 调用 的 问题 ， 而 你 想 降 低调 用 的 次 数 来 尽量 减少 开销 。 
性 能 至 关 重 要 ， 而 你 想 确保 所 有 LO 均 在 对 齐 块 的 边界 上 使 用 块 大 小 的 数据 块 。 
* 你 的 访问 方式 以 字符 或 行为 基础 , 而 你 希望 接口 可 以 轻易 使 用 这 种 访问 方式 , 不 需 
要 进行 任何 不 相干 的 系统 调用 。 
. 相 比 较 于 低级 的 Linux 系统 调用 ， 你 更 喜欢 使 用 较 高 级 的 接口 。 
然而 ， 当 你 直接 使 用 Linux 的 系统 调用 时 却 存在 最 大 的 机 动 性 。 下 一 章 ， 我 们 将 着 眼 
于 LO 的 高 级 形式 以 及 相关 的 系统 调用 。 


高 级 文件 I/0 


在 第 二 音 中 ， 我 们 看 过 了 Linux 的 基本 IO 系统 调用 。 这 些 调 用 不 仅 是 文件 MO 的 基 
硕 ， 也 是 Linux 上 所 有 通信 的 基础 。 在 第 三 章 中 ， 我 们 看 过 了 基本 IO 系统 调用 之 上 
征 如 何 前 前 需要 用 到 用 户 空间 缓冲 机 制 ,而且 还 介绍 了 一 个 用 户 空 间 缓冲 方案 , 也 就 是 
C 的 标 惟 MO 链接 库 。 在 本 革 ， 我 们 将 探讨 Linux 所 提供 的 更 高 级 的 WO 系统 调用 ， 


分 散 一 聚集 LiO (scatter-gather 1/0) 
比 时 一 调用 可 以 同时 对 多 个 缓冲 区 进行 数据 的 读 取 或 写 人 操作 。 可 用 于 将 各 个 数据 
结构 的 字段 肾 集 成 单 次 MO 操作 。 


事件 轮 询 接口 (event poll intierface) 
用 于 改善 弟 二 音 所 提 到 的 poll() 及 select1() 系统 调用 。 若 单一 程序 中 必须 
轮 询 上 百 个 文件 描述 符 ， 则 可 以 使 用 事件 轮 询 接口 。 

内 存 上 映射 LO (memory-mapped I/0) 
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分 散 一 聚集 I/0 


分 散 一 聚集 (scatter-gather) MO 是 一 种 进行 输入 和 输出 的 方法 。 通 过 此 方法 ， 单 一 系 
统 调 用 可 以 将 缓冲 区 问 量 (a vector of buffers) 写 入 单一 数据 流 ， 或 者 将 单一 数据 流 读 取 
到 缓 部 区 问 量 。 这 个 类 型 的 WO 之 所 以 会 有 此 名 称 , 是 因为 数据 会 被 分 散 至 (scattered inio) 
或 聚集 自 (gathered from) 特定 的 缕 冲 区 向 量 , 这 种 方式 的 输入 和 输出 又 称 为 向 量 (vecrored) 
WO。 相 比较 之 下 ， 弟 二 鞋 的 标准 读 取 和 写 入 系统 调用 所 提供 的 是 线性 (linear) 1O， 


比较 于 线性 VO 的 做 法 ， 分 散 一 聚集 WO 有 几 项 优点 : 


更 自然 的 /0 所作 
如 果 你 的 数据 原本 就 是 分 段 的 (segmented) ， 例 如 头 文件 中 预定 义 的 字段 ， 向量 MO 
可 对 其 进行 直观 操作 。 

交 球 
单 次 辐 量 IO 操作 可 以 取代 多 次 线性 IO 操作 ， 

广 能 
比较 于 线性 VO 的 实现 ， 同 量 LO 的 实现 除了 可 以 减少 系统 调用 的 次 数 ， 还 可 以 
经 内 部 的 优化 提供 性 能 的 改善 。 


原子 性 
不 同 于 多 次 线性 MO 操作 ， 一 个 进程 可 以 执行 单 次 向 量 MO 操作 ， 不 会 有 与 另 一 
个 进程 的 操作 交叉 在 一 起 的 风险 。 
更 日 然 的 IO 操作 与 原子 性 其 实 不 使 用 分 散 一 聚集 MO 机 制 也 能 办 到 。 一 个 进程 可 以 
在 进行 号 人 操作 之 前 把 分 开 的 阿 量 连接 成 单一 缓冲 区 ,并 在 进行 读 取 操 作 之 后 把 所 返回 
的 组 冲 区 分 解 成 多 小 问 量 ,也 就 是 一 个 用 户 空 间 应 用 程序 可 以 手动 执行 分 散 和 聚集 的 操 
作 。 人 然而 ， 这 种 解决 方案 实现 起 来 既 没 效率 也 不 好 玩 。 


readv() 与 writev() 
POSIX 1003.1-2001 定义 了 而 且 Linux 实现 了 -一 对 采用 分 散 一 聚集 1/O 机 制 的 系统 调 
用 。Linux 的 实现 品 请 足 了 前 一 节 所 列 的 各 项 目标 。 
readv() 国 数 会 把 count 个 段 从 文件 描述 符 fa 读 取 进 iov 所 描述 的 缓冲 区 : 
#include <gys/uio.h> 
ssize t readv (int fa, 


conat struct ilovecs *1iow, 
int county:; 
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writev() 函数 最 多 会 把 count 个 段 从 iov 所 朱 述 的 缕 冲 区 写 人 至 文件 摘 述 符 fa9: 
#include <sys/uio.h> 


BBize 七 writew (int fd, 
const struct iovec *iow, 
int count)}); 
尽管 readv () 和 writev() 硝 数 的 行为 分 别 如 同 read() 和 write() ,但 是 readv{) 
和 writev() 会 同时 读 取 或 写 人 多 小 缓冲 区 。 


每 个 iovec 结构 可 用 来 描述 一 个 独立 的 缓冲 区 ， 这 又 称 为 一 个 段 〈segmaeni) : 
#incljude <gYye/uio.h> 


gtruct iowvec 二 
void *iov bage: /* pointer to gtart of buffer */ 
Size 七 iov len; /* size of buffer in bytes */ 


}; 
一 组 段 义 称 为 向 量 (vector) 。 问 量 里 的 每 个 段 描述 了 内 在 中 应 该 读 取 或 写 人 缓冲 区 的 地 
址 和 长 度 。readv () 嘱 数 在 着 手 处 理 下 一 个 缓 促 区 之 前 , 会 先 填 满 当前 长 度 iov_len 
个 字 节 的 缓 促 区 。writev() 函数 在 着 手 处 理 下 一 个 缓冲 区 之 前 ,通常 会 先 把 iov_len 
个 字 节 全 部 写 出 。 这 两 个 函数 总 是 会 依次 操作 各 个 段 , 从 iov[0] 开始 , 然后 是 iov[l1 
等 等 ,一 直到 ijov[count-1]。 


返回 值 

执行 成 功 时 ，readv() 和 writev() 会 分 别 返 回 所 读 取 或 写 人 的 字 节 数目 。 此 数目 
应 该 是 count 个 iov_len 值 的 总 和 ,发 生 错误 有 时 , 系统 调用 会 返回 -1 并 且 将 errno 
设 定 成 适当 的 值 。 这 两 个 系统 调用 可 以 体验 read() 和 writel) 系统 调用 可 能 遇 到 
的 任何 错误 ， 而 且 会 在 收 到 此 类 错误 时 设 定 相 同 的 errno 代码 。 此 外 ， 标 准 还 定义 
了 两 种 其 他 的 错误 状态 。 

育 先 ， 因 为 返回 值 的 类 型 为 ssize_ tt， 如 果 count 个 iov_ len 值 的 总 和 大 于 
SSIZE_MAX， 则 数据 将 不 会 被 传送 ， 此 时 会 返回 -1 并 且 将 errno 设 定 成 EINVAL。 


其 次 ，POSIX 规定 count 必须 大 于 零 以 及 小 于 或 等 于 TOV_MAX， 此 项 限制 定义 于 
<1imits.h>。 在 Linux 中 ，IOV_MAX 目前 是 1024。 如 果 ceunt 为 0,， 这 两 个 系统 
调用 会 返回 0 ( 注 1)。 如 果 count 大 于 IOV_MaX， 则 数据 将 不 会 被 传送 ， 此 时 会 返 
回 -1 并 且 将 errno 设 定 成 EINVAL。 


注 1: 注意 ,如 果 count 为 0, 其 他 的 Unix 系统 会 把 errno 设 定 成 EINVAL, 这 是 相关 标准 明 
确 丸 许 的 : 如 果 该 值 为 0 ， 或 者 系统 可 用 其 他 【{ 非 错误 的 ) 方式 来 处 理 值 为 0 的 情况 ， 
erIrno 可 以 害 朗 成 EINVAL，, 
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优化 count 


可 量 MO 操作 期 间 ，Linux 内 核 必 须 分 配 内 部 的 数据 结构 以 表示 每 个 区 段 。 一般 情 沈 
下 ， 这 种 分 配 是 动态 进行 ， 而 且 以 count 参数 的 大 小 为 基础 。 然 而 ， 如 未 count 
的 值 够 小 ， 不 需要 动态 分 配 段 ， 则 可 以 进行 优化 ,于 是 Linux 内 核 会 在 它 所 使 用 的 
堆栈 上 为 段 创建 一 个 小 型 的 数组 ， 因 此 性 能 多 少 会 有 一 点 改善 。 此 优化 阅 值 
(threshold) 目前 是 8， 所 以 如 果 count 的 值 小 于 或 等 于 3838， 则 向 量 WO 操作 会 在 进 
程 的 内 核 堆栈 中 以 非常 有 内 存 效率 的 方式 进行 。 

最 有 可 能 的 是 你 并 未 在 指定 的 同 量 MO 操作 中 选择 需要 则 有 时 传 送 多 少 个 展 。 然 而， 如 
果 你 是 一 个 随机 应 变 的 人 ， 考 虑 使 用 较 小 的 值 ， 那 么 你 可 以 选择 8 或 更 小 的 值 ， 这 
样 性 能 必定 会 有 所 改 状 。 













writev() 范例 程序 

让 我 们 来 看 一 个 简单 的 范例 程序 , 它 会 写 出 了 一 个 具有 三 个 段 的 癌 量 , 每 个 段 包 含 了 一 
个 长 度 不 同 的 字符 串 。 这 个 完整 的 程序 足以 示范 writev1) 的 用 法 ， 它 虽然 简单 但 有 
有 实用 性 ，; 


#include <stdio.h>s 
finclude <sys/types.h> 
#include <sys/stat.h> 
#1incelude <fcntl.h> 
#include <string.h> 
#irnclude <sys/Uio.h> 


int main 1) 

I 
struct iovec lovl3]: 
号 包工 世人 tc nr: 
int fdq, i; 


char *ouf[] Wr 
"The term buccaneer comes from the word boucan.\n", 
"BA boucan is a Wooden frame Used for cooking meat.\n", 
"Buccanner ls the West Tndies Name for a pirate,“n"” }; 


id = open {"huccaneer,txt", 0 WRONLY | © CREAT | 0O_TRUNC):; 
if (fd == “1) 1 

Dearror lI"open™); 

return 1; 


1 


for (1 = 0; i < 3; i++) 1 
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iov[i] ,iov base = buf[il].; 
iowv[il] .iow_ len = strlen (buf [1i1])}); 


} 
/* [以 单 次 调用 将 它们 全 部 写 出 */ 


nr = writev (fd, iov, 3); 

iE. Ti. a 二 二 
Perror ("writev"); 
return 1: 

| 

printf ("wrote %9 bytes\n'", nr); 


if (close (fd)} 1 
perror ("close"); 
retiuirn 1; 


return 上 
} 


运行 此 程序 会 产生 预期 的 结果 : 


$ .A/writev 
wrote 148 bytes 


读 取 此 程序 所 写 出 的 文件 : 


Ss Cat buccaneer ,七 其 上 

Thne term Puccaneer comes from the word boucan. 

A boucan is a wooden frame used for cooking meat. 
Buccaneer 1s the West Indies name for a plrate. 


readv() 范例 程序 
现在 让 我 们 来 看 一 个 范例 程序 ， 它 会 使 用 readv () 系统 调用 来 读 取 前 一 节 利 用 向 量 IO 
所 产生 的 文本 文件 。 同 样 ， 这 是 一 个 完整 的 程序 ， 它 虽然 简单 但 具有 实用 性 : 


i#include <stdic,1h> 
#include <sys/types.h> 
#inciude <sys/stat.h> 
#include <fcntl.h> 
#include <sys/Uuion.h> 


int main +} 
char foo[48], bar[si], baz[l49]; 
struct iowvec jov[3); 
SSsl2Ze tt nr:; 
int fQ, i: 


fd = open {"buccaneer .txt", O_ RDONDY); 
if (fq == -1) 
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perror ("open"}); 
return 1; 
} 


A/* 设 定 我 们 的 iovec 结构 */ 
iow[0] .iov base = foo: 

ov[o] .icowvw_ len = sizeof (foo); 
iov[1] .iowvw base = bar: 

lov[ll .iow len = sizeof lbar}:; 
iov[2] .icow base = baz: 

iov[2] .iov_len = sizeof lbaz); 


/* 以 单 次 调用 将 数据 读 进 这 些 结 构 */ 
nr = readv (fd, iov, 3): 
if for == -1} { 
perror ("readv"); 
return 1; 


Eor {1 = 07; i < 3; 1++) 
printf {"%d: %s", 1, {char *) iov[i].iov_base); 
ift {close (fd)) 1{ 


perror ("close"}),; 
return 1; 


return 0; 


运行 前 一 市 的 程序 之 后 再 运行 此 程序 会 产生 如 下 的 结果 : 


[i 


实现 


ready 

: The term buccaneer comes from the word boucan. 

A boucan is a wooden frame used for cooking meat. 
Buccaneer is the West Indies name for a pirate. 


readv() 和 writev () 的 简单 实现 可 以 在 用 户 空间 中 以 一 个 简单 的 循环 来 完成 ， 
看 起 来 会 像 下 面 这 个 样子 ， 


#include <unista.h> 
#include <sys/Uio.h> 


ssSize_t naive writev (int fd, const struct iovec *iov, int count) 


{ 


ssSize_t ret = 0; 
int 1; 


for {i = 0; i < counts: I++) f 


它 
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S31i2e 上 nr: 


nr = write (fa, iov[il ,iov base, iov!li] ,iov_len}; 


if (nr == -1 1 


} 


下 全 上 LE Fet: 


幸好 , 这 不 是 Linux 的 实现 品 : Linux 将 readv|() 与 writev() 空 现成 系统 调用 , 并 
在 内 部 执行 分 散 一 取 集 IO。 事实 上 ，Linux 内 校内 部 所 有 LO 均 采 用 向 量 的 方式 , 尽 
管 read() 和 write{) 被 实现 成 向 量 MO， 但 是 向 量 中 只 有 一 个 段 。 


事件 轮 询 接 口 


絮 觉 Pol1l1() 与 select1() 的 限制 后 ，2.6 版 的 Linux 内 核 { 注 2) 引进 了 事件 轮 询 
(event pol， 常 简写 为 epoll) 机 制 。 尽 管 比 poll1() 与 select() 复 杂 , 但 epoll 不 
仅 解 块 了 这 两 个 接口 的 性 能 问题 ， 而 且 还 提供 了 若干 新 的 功能 。 

对 poll() 与 select{() (第 二 章 讨论 过 ) 的 每 次 调用 需要 一 份 所 要 查看 的 文件 描述 符 的 
完整 列表 。 然 后 内 核 必 须 处 理 列表 中 的 每 个 文件 描述 符 。 当 这 份 列表 变 大 时 一 一 它 可 能 
包 售 成 百 上 千 个 文件 描述 符 , 每 次 调用 所 要 处 理 的 列表 会 变 成 可 伸缩 性 (scalabilitv) 瓶颈 。 
epoll 其 开 这 个 问题 的 方法 就 是 让 事件 监视 器 的 注册 (monitor registration ) 与 实际 的 事 
件 监视 工作 (actual monitoring) 脱 钧 。 一 个 系统 调用 用 于 初始 化 epoll 的 上 下 文 
(context) , 男 一 个 系统 调用 用 于 将 所 要 查看 的 文件 描述 符 加 入 上 下 文 或 从 上 下 文中 移 除 
文件 描述 符 ， 第 三 个 系统 调用 则 实际 执行 事件 等 待 。 


创建 一 个 新 的 epoll 实例 
epoll_create() 可 用 于 创建 一 个 epoll 上 下 文 ， 


#include <svys/epoll.h» 


int epoll create (int size) 


执行 成 功 时 ，epol1l_create() 会 创建 一 个 新 的 epoll 实例 ， 并 且 返 回 一 个 与 实例 相 


注 2: epoll 是 在 编号 2.5.44 的 开发 版 内 核 中 引入 的 ， 而 接口 则 是 在 2.5.66 版 定稿 的 ， 
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关联 的 文件 描述 符 。 此 文件 描述 符 与 真实 的 文件 没有 关系 , 它 只 是 一 个 可 供 随后 的 调用 
使 用 epoll 设备 (facility) 的 句 栖 (handle)。size 参数 用 于 提示 内 核 要 监视 的 文件 
描述 符 数 目 ， 此 值 并 非 量 大 数目 。 此 值 设 定 得 当 将 可 获得 较 佳 的 性 能 ， 但 是 不 需要 过 是 
确切 的 数目 。 发 生 错 误 时 , 此 调用 会 返回 -1 并 且 将 errno 设 定 成 下 面 的 其 中 一 个 值 : 


ELINVAL 

size 参数 不 是 一 个 正 数 。 
ENFILE 

系统 已 经 到 达 所 能 打开 文件 数目 的 上 限 。 
ENOMEM 

可 用 内 存 不 足以 完成 此 项 操作 。 
典型 的 调用 方式 如 下 : 

nt eptd:; 


epfqd = epoll_create (100); /* 计划 查看 ~100 fds */ 
if (epfd < 0) 
DEIrTor ("epoll_create"}:; 


输 询 完成 之 后 应 该 调用 closel) 来 销毁 epoll_create1) 所 返回 的 文件 描述 符 。 


控制 epoll 
epol]_ct1lt) 系统 调用 可 将 文件 描述 符 加 入 指定 的 epoll 上 下 文 ,或 者 从 指定 的 epoll 
上 平 文中 移 除 文件 朱玉 行 : 


#include <Sgys/epoll.h> 


int epoll etl {int epfad, 
int op, 
int fq, 
Btruct apoll event *event)} 


头 文 件 <sys/epoll.,h> 将 epoll_event 结构 定义 成 : 


struct epoll_event 1 
uu32 events; /* 事件 */ 
unlion 1 
Vol *ptr: 
imnt 不 Q; 
.U32 Ui2: 
Ud Ubd: 
} data; 
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一 个 成 功 的 epol1l1_ct11) 调用 可 以 控制 与 文件 描述 符 epfad 相关 联 的 epoll 实例 。 参 
数 op 用 于 指定 如 何 操作 与 Ed 相关 联 的 文件 。event 参数 用 于 进一步 描述 操作 的 行为 。 


op 参数 的 有 效 值 如 下 所 示 : 


EPOLL_CTL_ ADD 
根据 event 所 定义 的 事件 ， 将 特定 文件 (关联 于 文件 描述 符 £9) 上 的 一 个 监视 
器 加 入 epoll 实例 (关联 于 epfa)。 
EPOLL_CTL_DEL, 
从 epoll 实例 ( 美 联 于 epfa) 移 除 特定 文件 (关联 于 文件 描述 符 fa) 上 的 一 个 
事件 监视 冀 。 
EPOLL_CTL_MOD 
以 event 所 指定 的 新 事件 来 修改 fa 上 的 一 个 现 有 事件 监视 器 。 
epoll_event 结构 中 的 events 字段 用 于 列 出 在 给 定 文件 描述 符 上 要 监视 哪些 事件 。 多 个 
事件 值 可 以 使 用 bitwise-OR ( 按 位 OR 逻辑 运算 ) 的 方式 组 合 在 一 起 。 下 面 是 有 效 的 事件 值 : 
EPOLLERR 
文件 出 现 了 一 个 错误 状态 。 此 事件 通常 会 被 监视 ， 即 使 它 未 说 指定 。 
EPOLLET 
为 文件 的 监视 器 启用 边缘 触发 行为 (参见 “边缘 触发 事件 与 电 平 触发 事件 一 闻 ) 
默认 行为 是 电 平 触发 。 
EPOLLHUP 
文件 出 现 了 一 个 挂 起 (hangup) 状态 。 此 事件 通常 会 被 监视 ， 即 使 它 未 被 指定 。 
EPOLLIN 
文件 可 供 读 取 而 且 不 会 遭 到 阻挡 。 
EPOLLONESHOT 
一 个 事件 产生 与 被 读 取 之 后 , 自动 停止 监视 相应 的 文件 . 欲 重 新 启用 监视 功能 , 必 
须 经 EPOLL_CTL_MOD 指定 一 个 新 的 事件 掩 码 ， 


EPOLLOUT 
文件 可 供 写 人 而 且 不 会 遭 到 阻挡 。 
EPOLLPRI 


有 紧急 (out-of-band) 数据 可 供 读 取 。 
epoll_event 结构 中 的 aata 字段 供用 户 私 人 使 用 。 收 到 请 求 的 事件 后 ， 此 字段 的 
内 容 会 返回 给 用 户 。 普 遍 的 做 法 是 将 event .data .fd 设 定 成 fa， 让 用 户 可 以 轻易 
找 出 是 哪个 文件 描述 符 导 致 此 事件 。 
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执行 成 功 时 ，epoll_ct1l() 传 返回 0， 执行 失 败 时 ， 它 会 返回 -1 并 且 将 errno 设 


定 成 下 面 的 其 中 一 个 值 : 


个 epcll 实例 ，epzsa 如 同 说 或 者 ep 无 效 。 


,_CTL_MOD 或 EFOLL_CTL_DEL, 但 是 Ea 并 未 被 关联 到 epfa。 


: 理 此 请 求 。 


Dl] 。 


将 特定 文件 (关联 于 fa) 上 一 个 新 的 事件 监视 器 加 入 epoll 实例 


epfd， 可 以 这 么 做 : 


Struct epoll]l_event ewvent: 
int ret; 


event .data.fdg = fd; /* 稍 后 将 fa 返回 给 我 们 */ 
EVernt ,events EPOLLIN | EPOLLOUT:; 


ret = epoll _ ctl (epfd, EPOLL_CTL_ADD, fd, &event}; 
if {retl} 
Perror {"epoll ctl"}).: 


ENOENT 
op 完 EEOLI 


ENOMEM 
内 存 不 足以 多 
EPERM 


£G 不 支持 ep 
举例 来 说 ， 如 果 想 


要 修改 epoll 实例 epfa 中 特定 文件 (关联 于 £9) 上 一 个 现 有 的 事件 监视 器 ， 可 以 这 


么 做 : 


struct epoll_event event:; 
int ret; 


event .data.fd = fd; /* 稍 后 将 fa 返回 给 我 们 */ 
event .events = EPOLLIN: 


ret = epoll_ctl (epfd, EPOLL_CTL MOD, fa, &event)}); 
if (ret) 
RE 
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反 过 来 说 ， 要 从 epoll 实例 epfa 中 移 除 特定 文件 (关联 于 fa) 上 一 个 现 有 的 事件 监 
视 器 ， 可 以 这 人 么 做 : 


struct epoll_event event; 
int ret; 


ret = epoll _ ctl (epfd, EPOLL_CTL_DEL, fd, &event});. 
if {ret) 
perror {"epoll_ctl")}); 
注意 ， 当 op 为 EPOLL_CTL_DEL 时 ，event 参数 可 以 是 NULL， 因 为 没有 提供 事件 
掩 码 。 然 而 在 2.6.9 版 本 之 前 的 内 核 会 错误 地 检查 此 参数 是 否 为 非 NULL 值 。 耕 要 移植 
尔 应 该 传人 一 个 有 竟 的 非 NULL 指针 . 矢 不 会 有 所 变动 .内核 


tt Tr re EL LL 
i ee 





于 ee 


LT 





Btruct epoll event *eventas, 
int maxevents, 
int timeocut); 


epoll_wait () 最 多 可 以 为 与 特定 epoll 实例 相关 联 的 文件 上 的 特定 事件 等 待 timeout 
毫秒 的 时 间 。 执 行 成 功 时 ，events 会 指向 包含 epoll_event 结构 (用 于 描述 每 个 
事件 ， 最 多 可 以 包含 maxevents 个 事件 ) 的 内 存 ， 返 回 值 为 事件 的 数目 ， 发生 错 误 
时 ， 返 回 值 为 -1 并 且 会 把 errno 设 定 成 下 面 的 其 中 一 个 值 ; 


EBADF : 
epfqd 是 一 个 无 效 的 文件 描述 符 。 
EFAULT 
进程 并 未 对 events 所 指向 的 内 存 进行 写 入 操作 。 
EINTR 
系统 调用 完成 之 前 被 信号 中 断 。 
EINVAL 


epfd 是 一 个 无 效 的 epoll 实例 ， 或 者 maxevents 等 于 或 小 于 0。 


如 果 timeout 为 0， 该 调用 会 立即 返回 ， 即 使 尚未 出 现 可 用 事件 ， 在 此 情况 下 会 返回 
0， 如 果 timeonut 为 -1， 则 该 调用 会 等 到 事件 可 用 才 返 回 。 
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当 此 调用 返回 时 ,epo11_event 结构 的 events 字段 用 于 描述 发 生 了 哪些 事件 ,Gata 
字段 包含 了 调用 epo11_ct11() 之 前 用 户 对 它 所 做 的 设 定 。 


下 面 是 一 个 完整 的 epo11_wait () 花 例 : 
Hdefine MAX EVENTS 54 


struct epoll event *events;} 
int nr_evants, i, epfqad.; 


events = malloec (slzeof lstruct epojl event}) * MA _ EVENILS): 
if (events) 《 

perror {"malloc");} 

return 1; 


} 


nr_events = epoll_ wait (epfd, events, MAX_EVENTS, -1); 
if (nr _ events < 0D) 1 

Berror ("epoll_walt"),; 

free (events):; 

return 1; 


} 
for {i = 0; i < nr_events; i++) 1 
printf "event=$g1ld on fd=$%d\n", 
events[i] .events, 
events[i] .data,frd); 
A 
* 我 们 现在 可 以 根据 每 个 events [1] .events 来 操作 
* events[i] .data,.fd 而 不 会 遭 到 阻挡 ， 
wy 
} 


free leventsy:; 


我 们 将 在 第 八 章 探讨 malloc() 与 free() 函数 。 


边缘 触发 事件 与 电 平 触发 事件 

如 果 epoll_ctl() 和 的 event 参数 的 events 字段 值 被 设 定 成 EPOLLET, 则 fd 的 
事件 监视 器 就 是 边缘 触发 的 (edge-triggered) ,这 是 相对 于 电 平 触发 的 (level-iriggered) 
下 面 古 生产 者 与 消费 者 之 加 通过 一 个 Unix 管道 通信 时 所 发 生 的 事件 : 

1. 生产 者 将 1 KB 的 数据 写 入 一 个 管道 。 

2. ”消费 者 对 管道 调用 epol1_wait{)， 等 待 管 道 送 来 数据 并 因此 而 可 供 读 取 。 


108 第 四 章 


使 用 电 平 触发 的 事件 监视 器 时 ， 此 调用 在 步 又 2 时 会 立即 返回 ， 这 显示 管道 已 经 可 供 
读 取 。 使 用 边缘 触发 的 事件 监视 器 时 ， 此 调用 会 等 到 步 又 1 发 生 之 后 才 返 回 。 也 就 是 
说 ， 即 使 管道 在 epol1l_wait() 被 调用 时 已 经 可 供 读 取 ，epol1_wait ()} 也 不 会 返 
回 ， 除 非 有 数据 被 写 人 管道 。 


电 平 触发 是 默认 行为 。 这 也 是 p0111) 与 select{) 的 行为 以 及 多 数 开 发 者 所 预期 的 
行为 。 边 绿 触 发 的 行为 需要 使 用 不 同 的 程序 设计 方法 , 通常 需要 运用 非 阻挡 VO 并 且 仔 
细 检 查 EAGAIN， 
着 妾 : 
Ey 此 处 所 用 到 的 术语 来 日 电气 工程 。 电 平 触发 中 断 (level-triggered interrupt) 发 
WW 用 a 生 在 信号 线 到 达 所 指定 的 电 平 ( 低 电 平 或 高 电 平 ) 时 。 边 缘 触 发 中 断 (edge- 
”triggered interrupt) 发 生 在 信号 线 经 历 所 指定 的 暂 态 ( 降 缘 或 升 缘 ) 时 。 当 你 对 
事件 (信号 线 的 电 平 ) 目前 的 状态 感 兴趣 上 时， 可 以 使 用 电 平 触发 中 断 ， 当 你 对 事 
件 本 身 (信号 线 的 某 个 暂 志 ) 感 兴趣 时 ， 可 以 使 用 边缘 触发 中 断 。 


将 文件 映射 至 内 存 


标准 文件 TO 还 有 另 一 个 选项 , 内 核 提供 了 一 个 接口 , 让 应 用 程序 可 以 将 一 个 文件 映射 
至 (map into) 内 存 ， 这 意味 着 内 存 上 的 一 个 地 址 与 文件 中 的 一 个 字 之 间 存 在 一 对 一 的 
对 应 关系 。 于 是 程序 设计 者 可 以 直接 通过 内 存 来 访问 文件 , 如 同 将 数据 存放 在 内 存 的 任 
何其 他 块 一 一 此 至 可 以 让 对 特定 内 存 区 域 所 进行 的 写 和 操作 自动 映射 回 磁盘 上 的 文件 。 


POSIX.1 定 闵 了 (而且 Linux 实现 了 ) mmap() 系统 调用 ， 以 便 把 特定 对 象 映射 至 内 
人 存 。 本 市 将 探 计 mmap () ， 因 为 它 与 把 文件 映射 至 内 存 时 所 进行 的 IO 有 关 。 第 八 章 还 
可 以 看 到 mmap () 的 其 他 应 用 。 


mmap() 


调用 mmap () 可 要 求 内 核 将 文件 描述 符 £6 所 代表 的 对 象 映 射 至 内 存 。 参 数 1en 代表 
对 象 中 有 多 少 个 字 节 将 被 映射 至 内 存 , 参数 of fset 代表 从 对 象 中 的 何 处 开始 映射 , 参 
数 addr 用 于 指向 内 存 中 所 要 使 用 的 起 始 地 址 ， 参 数 prot 用 于 指示 访问 权限 ， 参 数 
flags 可 用 于 指定 额外 的 行为 : 
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#include <BYSa/Iman.h> 


void * mmap (void *addr, 
Saize_t len, 
int prot, 
int flaga, 
int fa, 
off t offset}:; 
aadr 参数 可 用 于 建议 内 核 ， 内 存 中 何 处 是 映射 文件 的 理想 位 置 。 这 只 是 一 个 提示 ， 多 
数 用 户 会 传 信 0 。 此 调用 会 返回 内 存 中 开始 进行 此 项 映射 的 实际 地 址 。 


prot 参数 用 于 描述 关于 此 项 映射 你 所 期 望 的 内 存 保护 方式 。 此 参数 的 值 可 以 是 
PROT_NONE， 代 表 此 项 上 映射 无 法 被 访问 (这 么 做 没有 多 大 意义 ), 也 可 以 是 下 列 各 值 经 
bitwise OR ( 按 位 OR 逻辑 运算 ) 的 结果 : 


EROT_ READ 
页 面 可 以 被 读 取 。 
PROT_WRITE 
页 面 可 以 被 写 入 。 
FROT _EXEC 
页 面 可 以 被 执行 。 
你 所 期 望 的 内 存 保护 方式 不 可 以 与 文件 的 打开 模式 相 冲 突 。 举 例 来 说 , 如 果 程 序 所 打开 
的 是 只 读 文 件 ， 则 不 得 将 prot 指定 成 PROT_WRITE。 


保护 标志 、 架 构 以 及 安全 


尽管 POSIX 定义 了 4 个 保护 位 (read、write、exec [以 及 none)， 但 有 些 架 构 仅 支持 
这 些 保 护 标 志 的 子 集 。 这 是 常见 的 情况 , 例如, 一 个 不 会 区 分 读 取 和 写 人 行动 的 处 理 
器 。 在读 情况 下 ,处 理 器 可 能 仅 具 备 一 个 “ 读 取 ”标志 。 在 这 些 系 统 上 , FROT_READ 
意味 着 PROT_EXEC。 直 到 现在 ，x86 架构 还 是 一 个 这 样 有 的 系统 。 


当然 , 依靠 这 种 行为 是 不 具 可 移植 性 的 。 具 可 移植 性 的 程序 如 果 打 算 执 行 映 射 中 的 程 
序 代码 ， 通 常 应 该 被 设 定 成 PROT_EXEC。 

相反 的 情况 是 缓冲 区 溢出 攻击 (buffer overflow attack) 会 流行 的 一 个 原因 ， 即使 特 
定 的 映射 没有 指定 执行 权限 ， 但 是 处 理 器 却 会 允许 执行 。 


最 近 的 x86 处 理 器 引进 了 NX (no-execute) 位 ， 所 以 映射 被 指定 为 可 读 取 不 代表 可 
执行 。 在 这 些 较 新 的 系统 上 ， 指 定 PROT_READ 不 再 意味 着 PROT_EXEC 也 成 立 。 
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flacs 参数 用 于 描述 映射 的 类 型 以 及 它 有 哪些 行为 。 此 参数 的 值 也 可 以 是 下 列 各 值 经 
bitwise OR ( 按 位 OR 逻辑 运算 ) 的 结 未 : 


MAP_ FIXED 
要 求 nmap () 将 aaar 视 为 必要 条 件 ， 而 非 仅 是 一 个 提示 。 如 果 内 核 无 法 将 映 刷 
放 在 指定 的 地 址 上 ， 则 此 调用 会 执行 和 失败。 如 果 地 址 和 长 度 参 数 与 现 有 的 映射 重 
荆 , 则 重 又 的 页 面 会 被 新 的 映射 抛弃 和 取代 。 因为 使 用 这 个 选项 需要 充分 了解 进 程 
地 址 空间 ， 然 而 这 是 不 具 可 移植 性 的 ， 所 以 不 鼓励 使 用 此 选项 。 

MAP_PRIVATE 
不 与 其 他 进程 共享 此 上 映射。 文件 的 映射 采用 的 是 copy-on-write ( 写 人 时 才 复 制 ) 操 
作 方 式 ,因而 此 进程 在 内 存 上 所 做 的 任何 改变 并 不 会 反映 在 实际 的 文件 中 或 其 他 进 
程 的 映射 中 。 

MAP SHARED 
与 映射 相同 文件 的 所 有 其 他 进程 共享 此 映射 。 写 人 此 映射 等 效 于 写 人 相应 的 文件 。 
读 取 此 映射 将 反映 出 其 他 进程 所 做 的 改变 。 

你 必须 指定 MAP_SHARED 或 MAP_PRIVATE, 但 是 不 可 以 同时 指定 。 其 他 更 高 级 的 标 

志和 将 在 第 八 章 讨论 。 

当 你 映射 一 个 文件 描述 符 时 ， 文 件 的 引用 计数 器 (reference count) 会 人 递增。 有 所以， 映 


射 文件 之 后 你 可 以 关闭 文件 描述 符 , 而 你 的 进程 将 仍然 能 够 访问 该 文件 。 当 你 解除 文件 
的 映射 (unmap the file) 或 者 进程 终止 时 ， 文 件 的 引用 计数 得 会 递减 。 
下 面 的 程序 代码 片段 会 从 第 一 个 字 节 开始 ， 把 Len 个 字 市 由 以 f& 支持 的 文件 映射 至 
一 个 只 读 的 映射 中 ; 

VOlId *p; 

p = mmap (0, len, FROT_READ, MAP_SHARED, fd, 0); 


1 ip 二 二 MAP_ FATLED 
perror ("mmap"):; 


从 图 4-1 可 以 看 出 ,将 一 个 文件 映射 至 一 个 进程 的 地 址 空间 时 , mmap () 的 参数 对 上 映 喘 
所 造成 的 影响 。 
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4-1: 将 一 个 文件 映射 至 一 个 进程 的 地 址 空间 


页 面 的 大 小 
页 面 (page) 是 内 存 能 够 具有 独特 权限 和 行为 的 最 小 单位 。 因此， 页 面 是 内 存 映 射 的 构 
成 要 素 ， 也 是 进程 地 址 空间 的 构成 要 素 。 


mmap () 系统 调用 可 运作 在 页 面 之 上 。addr 与 of fset 参数 的 值 必 须 对 齐 一 个 页 面 
大 小 的 边界 (page-sized boundary) ， 也 就 是 说 它们 必须 是 页 面 大 小 的 整数 倍 。 


因此 ， 了 映射 是 页 面 的 整数 倍 。 如 果 调 用 者 所 提供 的 1en 参数 并 未 对 齐 一 个 页 面 的 边界 
一 一 或 许 是 因为 文件 的 大 小 并 非 页 面 大 小 的 倍数 , 则 映射 中 不 足 一 个 页 面 大 小 的 部 分 会 
用 到 整个 页 面 。 这 个 页 面 中 的 额外 字 节 , 也 就 是 最 后 一 个 有 效 字 节 到 映射 末端 之 间 ， 会 
被 填 入 零 。 对 读 内 存 区 域 所 进行 的 任何 读 取 操作 都 将 依次 返回 零 。 对 该 内 存 区 域 所 进行 
的 任何 写 人 操作 都 不 会 影响 支持 文件 (backing file)， 即 使 它 在 映射 时 指定 了 
MAP_SHARED。 只 有 原本 的 len 个 字 节 会 被 写 回 文件 。 


sysconf() 
sysconf () 是 取得 页 面 大 小 的 标准 POSIX 方法 ， 可 用 于 取得 系统 特有 的 信息 : 
#include <unistd.h> 


long syasconf (lint name); 


调用 sysconf (ty 可 返回 rame 的 配置 项 (configuration item) 的 值 , 如 果 name 为 无 
效 值 则 会 返回 -1。 发 生 错 误 时 ， 此 调用 会 将 errno 设 定 成 EINVAL。 因 为 对 某 些 项 
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(例如 limits， 返 回 -1 代表 无 限制 ) 而 言 ，-1 可 能 是 有 效 值 ， 调 用 之 前 先 请 除 errno 
并 于 调用 之 后 检查 其 值 可 能 是 明智 之 举 。 


POSIX 将 _Sc_PaAGESTITZE (以 及 它 的 别名 _SC_PAGE_SIZE) 定义 成 一 个 页 面 的 大 
小 【以 字 节 为 单位 )。 因 此 页 面 的 大 小 可 以 轻易 取得 : 


long Page _ size = SySsconf (_SsSC_PAGESIZE); 


getpagesize!() 
Linux 还 提供 了 getpagesize() 国 数 ，: 


#include <unigstad.h> 


int getpagesize (void); 


调用 getpagesize{) 同样 也 会 返回 一 个 页 面 的 大 小 (以 字 节 为 单位 )。 此 函数 的 用 
法 甚至 比 sysconf () 还 简单 : 


int page_size Jetpagesize ():; 


并 非 所 有 Unix 系统 都 支持 此 函数 ， 它 已 从 POSIX 标准 的 1003.1-2001 修订 版 中 被 移 
除 ， 此 处 之 所 以 会 提 到 它 是 基于 完整 性 。 


PAGE _SIZE 
页 面 的 大 小 也 被 静态 地 存储 在 PAGE_SIZE 宏 (定义 于 <asm/page.h>) 中 。 因 此 取 
得 页 面 大 小 的 第 三 种 方式 为 : 


int page_size = PAGE_SI2E; 


然而 不 同 于 前 两 种 选项 ， 此 方式 所 取得 的 是 编译 时 (而 非 运 行 时 ) 系统 的 页 面 大 小 。 有 
些 架 构 支 持 使 用 不 同 页 面 大 小 的 多 种 机 器 类 型 ,而 有 些 机 器 类 型 本 身 就 文 持 多 种 页 面 大 
小 ! 特定 架构 的 二 进 制 文件 (binary) 应 该 可 以 在 共 所 支持 的 任何 机 絮 类 型 上 运行 ， 也 
就 是 说 ， 你 应 该 可 以 “构建 一 次 ， 到 处 运行 ”(build it once and run it everywhere)。 把 
页 面 大 小 写 死 将 失去 此 可 能 性 , 因此 你 应 该 在 运行 时 决定 此 值 。 因 为 addr 与 offset 
通常 是 0， 所 以 要 符合 此 要 求 并 不 会 太 困 难 。 


此 外 , 未 来 的 内 核 版 本 可 能 不 会 将 此 宏 导 出 至 用 户 空间 。 之 所 以 会 在 本 章 提 到 它 是 因为 
它 常 出 现在 Unix 程序 代码 中 ,但 是 你 不 应 读 将 它 使 用 在 自己 的 程序 里 。sysconf1[) 
是 最 可 行 的 做 法 。 
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返回 值 与 错误 代码 
执行 成 功 时 ，mmap () 会 返回 映射 的 位 置 ， 执行 失败 时 ， 它 会 返回 MAP_FAILED 并 且 
将 errno 设 定 成 适当 的 值 。mmap {) 绝对 不 会 返回 0。 
errno 的 可 能 值 如 下 所 示 : 
EACCESS 
所 指定 的 文件 描述 符 并 非常 规 文件 , 或 者 它 在 打开 时 所 采用 的 访问 模式 与 prot 或 
flags 抵触 。 
EAGAIN 
文件 已 经 被 文件 锁定 机 制 锁 住 了 。 
EBADF 
指定 了 无 效 的 文件 描述 符 。 
EINVAL 
addr、len 或 off 参数 中 有 一 个 或 多 个 是 无 效 的 。 
ENFITLE 
所 打开 的 文件 已 经 达到 了 系统 也 围 system-wide) 的 限制 。 
ENODEYV 
要 进行 映射 的 文件 所 在 的 文件 系统 不 支持 内 存 上 映射 功能 。 
ENOMEM 
进程 所 具有 的 内 存 不 足 。 
EOVERFLOW 
addr+len 的 结 末 超过 了 地 址 空 旧 的 大 小 。 
EPERM 
虽然 指定 了 PROT_EXEC， 但 是 文件 系统 在 挂 载 时 指定 了 noexec 选项 。 


相关 的 信号 

有 两 种 信号 与 也 映射 的 区 域 相关 : 
SIGBUS 

当 一 个 进程 试图 访问 一 个 内 存 映射 中 不 再 有 效 的 区 域 时 便 会 产生 此 信号 一 一 例如 ， 
可 能 征 因 为 文件 在 映射 之 后 锌 截 短 了。 

SIGSEGV 


当 一 个 进程 试图 写 入 一 个 以 上 只 读 方 式 上 映射 的 区 域 时 便 会 产生 此 信号 。 
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munmap() 
Linux 所 提供 的 munmap {) 系统 调用 可 用 于 移 除 mmap () 所 创建 的 一 个 内 存 映射 : 


#include <Bsva/mman. hy 


int munmap (veoid waddr, size 七 len); 


调用 munmap () 可 移 除 任何 的 内 存 映 射 。 参 数 addr ( 它 的 值 必 须 与 页 面 对 齐 ) 用 来 
指定 所 要 移 除 的 映射 所 包 作 的 页 面 始 于 进程 地 址 空间 中 哪个 位 置 。 参 数 Len 用 来 指定 
要 从 映射 中 移 除 多 少 字 节 。 一 旦 移 除 映射 ,先前 与 其 相关 联 的 内 存 区 域 不 再 有 效 ， 之 后 
对 其 所 进行 的 访问 操作 将 导致 SIGSEGYV 信和 号。 


传人 munmap () 的 参数 一 般 来 自 先 前 所 调用 的 mmap () 的 返回 值 以 及 它 的 len 参数 。 


执行 成 功 时 ，munmap () 会 返回 0; 执行 失败 时 ， 它 会 返回 -1 并 且 将 errno 设 定 为 
适当 值 。 唯 一 标准 的 errno 值 是 EINVaAL ， 表 未 指定 了 一 个 或 多 个 无 效 的 参数 。 


下 面 的 程序 代码 片段 会 取消 "所 包含 的 ”页面 位 于 [adar,aaar+Ien]l 区 间 的 内 存 映射 


if (munmap ‘addr, len} == =1)} 
perror ("mnmap"}.: 


内 存 映 射 范例 
下 面 的 简单 范例 程序 会 使 用 mmap () 将 用 户 所 指定 的 一 个 文件 输出 至 标准 输出 : 


#include <stdioc.h> 
#include <sys/types.h> 
#include <sys/stat.h> 
#include <fcntl.h> 
#inciude <unistqd.,h» 
#include <sysi/mman.h> 


int main {int argc. char *argv![]) 
{ 

struct stat skh; 

aff t len: 

char *p:; 

int fd: 


if ‘arge < 2) { 
fprintf (stderr, "usage: $93 <file>\n", argv[0]); 
return 1; 


} 


fd = open largv[1], 0O_ RDONLY) ; 
if {fd == -1) 1{ 
perror ("cpen"}:; 
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return 1:; 


} 

if rfstat (fd, &sb} == -1) 1 
perror ("fstat™):} 
return 1; 

} 


If 【4149_ISREG (sb.st_ mode})} 1 
fprintf {stderr, "%s is not a file\n", argv[1]): 
return 1; 


} 


p= mmap (0, sb.st_size, PROT READ, MAP SHARED, fd, 0}); 
if tp == MAP_FAILED} i 

perror ("mmap™}); 

return 1: 


} 

if {close {fd} == -1} 1 
perror ("close").: 
return 1; 

} 


for {lert = 0: len < sb.st size: lent++) 
putchar {pl[llenj}).: 


if {munmap (Pp, sb.st_size) == -1) 1 
perror tf"munmap"l}: 
return 1; 

} 


relurn 0: 


此 范例 中 ， 你 唯一 不 熟悉 的 系统 调用 应 该 是 fstat () (第 七 章 会 有 说 明 )。 此 处 你 只 需 
要 知道 fstat () 会 退回 所 指定 文件 的 相关 信息 。 了 映射 此 文件 前 ，S_ISREG() 宏 可 用 
于 检查 此 信息 , 以 便 判 断 所 指定 的 文件 是 否 为 常规 文件 (相对 于 设备 文件 或 目录 而 言 )。 
非常 规 文件 被 映射 时 有 的 行为 取决 于 其 支持 设备 (backing device)。 有 些 设 备 文件 可 用 于 
mmap 的 操作 ， 其 他 非常 规 文件 则 不 可 用 于 mmap 的 操作 ,而且 会 将 errno 设 定 成 
EACCESS, 


此 死 例 程序 其 余部 分 应 该 很 疝 单 。 此 程序 的 执行 需要 一 个 文件 名 作为 参数 。 此 程序 会 打 
开 该 文件 , 确定 它 是 一 个 常规 文件 , 映射 它 , 关闭 它 , 将 文件 逐 字 节 地 输出 至 标准 输出 ， 
然后 从 内 存 解除 文件 的 映射 。 


二 
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mmap() 的 优点 


相 比 较 于 标准 的 reaa() 和 write() 系统 调用 , 经 mmap () 来 操作 文件 有 以 下 优点 : 


。 “对 内 存 映射 文件 进行 读 取 和 写 人 操作 ， 可 避免 使 用 read() 或 write() 系统 调 
用 时 所 产生 的 无 关 副 本 (数据 必须 被 复制 到 一 个 用 户 空 人 ee | 团 组 
证 区 复制 回来 )。 

* 除了 任何 可 能 的 页 面 失误 (page fault), 对 内 存 映 射 文 件 进行 读 取 和 写 入 操作 不 会 
产生 任何 系统 调用 或 操作 环境 切换 的 开销 。 进 行 简单 的 内 存 操作 即 可 。 

*。 “ 当 有 多 个 进程 将 同一 个 对 象 映 射 至 内 存 时 ， 数 据 由 这 些 进程 所 共享 。 对 类 型 为 
read-only 以 及 shared 的 可 写 入 映射 而 言 ， 所 共 侍 的 是 它们 的 全 部 ; 对 类 型 为 
pe 的 可 写 人 映射 而 言 , 所 共享 的 是 它们 尚未 被 “ 写 和 人 时 复制 ”(copy-on-write， 

常 简写 成 COW】 的 页 面 。 
。 ”映射 的 查找 仅 涉 及 很 少 的 指针 操作 。 不 需要 使 用 1seex () 系统 调用 。 


基于 这 些 原因 ， 对 许多 应 用 程序 而 言 ，mmap () 是 一 个 明智 的 选择 。 


mmap() 的 缺点 


使 用 mmap() 时 ， 有 儿 总 请 路 记 在 心 ; 


. 内 存 映 里 往往 是 页 面 大 小 的 整数 倍 , 因此, 广 持 文件 的 夫 小 与 页 面 大 小 的 整数 倍 的 
莽 值 就 瀛 费 挥 了 ,成 为 网 置 空 间 , 以 小 文件 来 说 ,映射 中 会 有 很 大 的 比例 被 浪费 掉 。 
例如 ,使 用 4 KB 大 小 的 页 和 面 ,一 个 7 字 习 大 小 的 文件 ,其 内 存 映 射 会 浪费 掉 4,089 

. 内 存 上 映射 必须 适合 放 入 进程 的 地 址 空间 。 使 用 32-bit 的 地 址 空间 时 ， 数 上 自 非 常 大 
的 各 种 大 小 的 映射 (various-sized mappings) 将 导数 碎 裂 的 地 址 空间 ， 从 而 很 难 
找到 可 用 有 的 天 型 的 连续 区 域 。 当 然 ， 此 问题 极 少 出 现在 使 用 64-bit 地 址 空间 的 情 
讽 下 。 

. 创建 和 维护 内 存 映射 以 及 内 楼 内 部 相关 的 数据 结构 是 要 付出 代价 的 ,此 开销 通常 会 
与 所 省 去 的 双重 副本 开销 相抵 消 ， 尤 其 是 对 较 大 型 及 被 频繁 访问 的 文件 而 过 
因此 ， 当 所 映射 的 是 大 型 文件 《因此 所 浪费 的 空间 占 整个 映射 相当 小 的 比例 ) 或 所 映射 
文件 的 大 小 是 页 面 大 小 的 整数 倍 (因此 没有 浪费 任何 空间 ), 将 可 从 mmap() 的 优点 获 

得 最 大 的 好 处 。 


高 级 文件 LI/O ji 





调整 映射 的 大 小 
Linux 特有 的 mremap |() 系统 调用 可 用 于 扩大 或 缩小 所 指定 的 映射 的 大 小 : 
#define _GNU. SOURCE 


#include <unistd.h» 
#include <eagye/mman.hy 


void * mremap (void *addr, size t old size, 
Biz2e t Dew gize, Unsigned long flages); 


mremap () 可 将 位 于 [addr ,addr+o1d_size) 区 间 的 映射 扩大 或 缩小 成 新 的 大 小 
new_size。 在 同一 时 间 内 ， 内核 可 能 会 移动 此 映射 ， 这 取决 于 进程 地 址 空间 中 的 可 用 
空间 以 及 flags 的 值 。 
eS 在 [addr ,addr+o1ld_size) 中 ， 左 边 的 “[” 符 号 用 于 指定 此 区 间 的 开始 地 址 
| (映射 包含 该 地 址 ) ， 右 边 的 “ )” 符 号 用 于 指定 此 区 间 的 结束 地 址 (映射 不 含 读 
”地 址 )。 这 个 惯例 就 称 为 区 间 标记 法 {interval notation)。 


t 
二 
人 


flags 参数 可 以 是 0 或 MREMAP_MAYMOVE (指出 如 果 有 需要 ， 内 核 可 以 自由 移动 映 
射 ,以 便 进 行 所 请 求 的 调整 大 小 的 操作 ) 。 进行 扩 大 操作 了 时, 如果 内 核 可 以 移动 映射 ， 则 
比较 可 能 成 功 。 


返回 值 与 错误 代码 
执行 成 功 时 , mremap {) 会 返回 一 个 指针 , 指向 刚才 调整 过 大 小 的 内 存 映 射 ; 执行 失败 
时 ， 它 会 返回 MAP_FAILED 并 且 将 errno 设 定 成 下 面 的 其 中 一 个 值 : 


EAGAIN 
该 内 存 区 域 已 被 销 住 ， 无 法 调整 其 大 小 。 
EFAULT 


所 指定 的 范围 内 有 些 页 面 在 进程 的 地 址 空间 中 并 非 有 效 页 面 , 或 是 在 重新 映射 所 指 
定 的 页 面 时 有 问题 发 生 。 


EINVAL 
指定 了 一 个 无 效 参 数 。 
ENOMEM 


所 指定 的 范围 车 不 移动 则 无 法 扩大 (但 是 并 未 指定 MREMAP_MAYMOVE)，, 或 是 进 
程 的 地 址 空间 中 可 用 空间 不 足 。 
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MS_SYNC 
指定 同步 化 操作 应 该 以 同步 的 方式 进行 。 msync () 将 不 会 返回 ， 除 非 所 有 页 面部 
已 写 回 磁盘 ，。 


你 必须 指定 MS_ASYNC 或 MS_SYNC， 但 不 可 同时 指定 。 


它 的 用 法 很 简单 
if fmsync (addr, len, MS_ASYNC) == -1) 
perror ("msesync"):; 
此 范例 会 以 异步 的 方式 (或 十 倍 快 的 方式 ) 将 文件 位 于 [addr ,addr+len) 的 映射 刷 
新 至 磁盘 。 


返回 值 与 错误 代码 
执行 成 功 时 , msync () 会 返回 0; 执行 失败 时 ， 它 会 返回 -1 并 且 把 errno 设 定 成 适 
当 的 值 。 下 面 是 有 效 的 errnc 值 : 


ELINVAL 
flags 参数 同时 设 定 了 MS_SYNC 与 MS_ASYNC, 或 设 定 了 这 三 个 有 效 标志 以 外 
的 位 ， 或 addr 并 未 与 页 面 的 大 小 对 齐 。 

ENOMEM 
文件 并 未 (或 者 有 部 分 未 ) 映射 到 所 指定 的 内 存 区 域 . 注意 , 当 所 要 同步 化 的 内 存 
区 域 只 有 部 分 未 映射 时 ，Linux 仍 能 对 该 区 域内 任何 有 效 的 映射 进行 同步 化 操作 ， 
但 是 Linux 将 返回 ENOMEM， 正 如 POSIX 的 规定 。 


在 Linux 内 核 2.4.19 之 前 的 版 本 中 ，msvync1) 会 返回 EFAULT 而 不 是 ENOMEM。 


对 映射 的 用 法 提供 建议 
Linux 提供 了 一 个 系统 调用 ， 名 为 maGvise () ， 让 进程 可 以 为 内 核 提供 建议 ， 指 出 它 


们 打算 如 何 使 用 映射 。 然 后 内 核 可 以 优化 其 行为 以 便利 用 映射 的 预定 用 法 。 尽管 Linux 
内 村 全 动 杰 调整 其 行为 而 日 存 没 右上 明确 奈 访 的 精 况 下 涵 党 出 会 担 化 大 相 的 性 能 但 是 
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向 级 文件 IO 12] 





#include <sys/mman.h> 


int madviase {void *addr, 
Bize 七 len, 
int advice):; 


如 未 Ten 为 0， 则 内 棱 会 把 该 建议 应 用 在 从 aadar 开始 的 整个 映射 。 参 数 advice 用 
十 拍 述 该 建议 ， 它 可 以 被 设 定 成 下 面 的 其 中 一 个 值 ， 


MADY_NORMAL, 

应 用 程序 并 未 对 此 内 存 范围 提供 任何 建议 。 它 应 该 按照 一 般 的 方式 来 处 理 ， 
MADY_ RANDOM 

应 用 程序 打算 以 随机 ( 非 顺 序 ) 的 方式 来 访问 所 指定 范围 中 的 页 面 。 


MADY_SEQUENTIAL 
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内 核 修 改 其 行为 以 响应 此 建议 的 实际 方式 与 特定 实现 有 关 : POSIX 只 规定 了 建议 的 意 
义 ， 并 未 规定 任何 可 能 的 结果 。 当 前 的 2.6 版 内 核 响 应 建议 (advice 值 ) 的 方式 如 
下 所 示 : 


MADV_NORMAL 
内 核 的 行为 一 如 往常 ,执行 适 当 数 量 的 预 读 操 作 。 


MADY_FRANDOM 
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一 一 

预 且 
读 {readahead) 的 优化 操作 。 当 Linux 内 核 从 磁盘 读 出 文件 时 ， 它 会 执行 一 个 称 为 预 
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如 第 二 章 的 “内 核 内 部 ”一 节 所 述 ， 内核 会 动态 调整 预 读 窗口 的 大 小 ， ne 
的 命中 率 (hit rate) 。 命 中 率 高 ， 意 味 着 可 得 利于 较 大 的 预 读 窗口 ， 命 中 率 低 ， 
缩小 预 读 窗口 。madvisef) 系统 调用 让 应 用 程序 可 以 马上 景 pps 





返回 值 与 错误 代码 
执行 成 功 时 ，madvisel) 会 返回 0， 执 行 失 败 时 ， 它 会 返回 -1 并 且 把 errno 设 定 
成 适当 的 值 。 下 面 是 有 效 的 错误 代码 : 


EAGAIN 
有 个 内 部 的 内 核资 源 (可 能 是 内 存 ) 无 法 使 用 。 进 程 可 以 再 试 一 次 。 
EBADF 
指定 的 内 存 区 域 存在 ， 但 是 并 未 映射 到 文件 。 
EINVAL 


参数 len 为 负 值 , 或 者 addr 并 未 与 页 面 大 小 对 齐 , 或 者 设 定 了 无 效 的 advice 
参数 ， 或 者 页 面 已 被 锁定 或 以 MADVY_DONTNEED 的 方式 共享 。 
EIO 


指定 了 MADV_WILLNEED,， 但 是 发 生 了 内 部 的 WO 错误 。 


启 级 文件 LO 123 


ENOMEM 
所 指定 的 内 存 区 域 在 此 进程 的 地 址 空间 中 并 韭 有 效 的 上 映射 ， 或 者 指定 了 
MADV_WILLNEED， 和 但 是 在 所 指定 的 区 域 中 没有 足够 的 内 存 供 页 面 使 用 .， 


对 一 般 文件 MO 的 用 法 提供 建议 


前 一 小 方 ， 我 们 研究 了 如 何 对 内 存 映射 的 使 用 提供 建议 。 这 一 于 ,我 们 将 研究 如 何 建议 
eh 般 文件 IO 的 使 用 方式 。Linux 为 这 个 建议 机 制 提供 了 两 个 接口 : 


posix_fadvisel) 与 readahead(),。 


posix_fadvise() 系统 调用 
第 一 个 建议 接口 正如 其 名 ， 是 通过 POSIX 1003.1-2003 标准 化 : 
#include <fcntl.h> 


int posix fadviase (int fd, 

off _t offaet, 

off t len, 

int advice):; 
调用 posix_fadvise() 可 以 把 我 们 对 文件 摘 述 符 fd 位 于 [offset,offset+len) 
范围 内 的 建议 提供 给 内 核 。 如 果 len 为 0， 建 议 将 会 应 用 至 [offset,1length of 
filel 范围 的 内 存 。 和 营 见 的 用 法 是 将 len 与 of fset 指定 为 0, 则 建议 会 应 用 至 整个 
交 件 。 


可 用 的 advice 选项 与 madvise() 的 类 似 。 参 数 advice 用 于 描述 该 建议 ， 它 可 以 
被 设 定 成 下 面 的 其 中 一 个 值 ; 
POSIX_FADV_NORMAL 

应 用 程序 对 所 指定 的 文件 范围 并 未 提供 任何 建议 。 它 应 该 按照 一 般 的 方式 来 处 理 。 
POSIX_FADV_RANDOM 

应 用 程序 打算 以 随机 ( 非 顺 序 ) 的 方式 来 访问 所 指定 范围 中 的 页 面 。 
POSIX_FADV_SEQUENTIAL 

应 用 程序 打算 以 顺序 的 方式 (从 低地 址 到 高 地 址 ) 来 访问 所 指定 范围 中 的 页 面 。 
POSIX_FADV_WILLNEED 

在 不 入 的 将 来 ， 应 用 程序 打算 访问 所 指定 范围 中 的 页 面 。 


POSI%_FADY_NOREUSE 


在 不 入 的 将 来 ， 应 用 程序 打算 访问 所 指定 范围 中 的 页 面 ， 但 是 只 进行 一 次 。 
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POSTAR_FADY _ DOMINEELD 

在 不 久 的 将 来 ， 应 用 程序 并 不 打算 访问 所 指定 范围 中 的 页 面 。 
如 同 madvise() ,对 所 提供 建议 的 实际 响应 与 特定 实现 有 关 一 一 巷 至 不 同 版 本 的 Linux 
内 楼 的 反应 也 会 有 所 不 同 。 下 徊 是 当前 内 核 版 本 所 作 有 网 啊 应 ; 


PFOSTX_ FADY_NORMAL 
内 核 的 行为 一 如 往常 ， 执行 适当 数量 的 预 读 操 作 。 
POSTXR FADY RANDOM 
内 核 会 禁用 预 读 功 能 ， 在 每 次 进行 实际 的 读 取 操作 时 只 会 读 进 最 少量 的 数据 。 
POSIX FADY SEQUENTIALP 
内 核 会 执行 积极 的 预 读 操 作 ， 将 预 读 窗口 (readahead window) 的 大 小 加 倍 。 
POSIX FADY WILLNEED 
内 核 会 发 起 预 读 操作 ， 开 始 将 所 指定 的 页 面 读 取 至 内 存 。 
POSIX FADV_ NOREUSE 
当前 的 行为 如 同 POSIX_FADV_WILLNEED 的 ， 未 来 的 内 核 版 本 会 进行 额外 的 优 
化 ， 以 利用 “只 进行 一 次 ”的 行为 。 在 madvise() 中 并 无 相应 的 建议 。 
POSIX_FRADV_DONTNEED 
内 核 会 在 所 指定 的 宛 围 中 从 页 面 缓存 区 (page cache) 收回 被 缓存 的 任何 数据 。 注 
意 ， 此 建议 不 同 于 其 他 建议 ， 它 的 行为 也 不 同 于 madvise(}) 中 相应 的 建议 。 
下 面 的 范例 程序 代码 会 建议 内 核 以 随机 《 非 顺 序 ) 的 方式 访问 文件 描述 符 fda 所 代表 的 
整个 文件 ， 
ret = posix_fadvise (fd, 0, 0, POSIX_FADY_ RANDOM) ; 


if tret == -1) 
Perror ("POSIxX fadvise"l): 


返回 值 与 错误 代码 
执行 成 功 上 时, posix_fadvise{) 会 退回 0 ;执行 失 败 时 , 它 会 返回 -1 并 且 将 errno 
设 定 成 下 面 的 其 中 一 个 值 ; 


EBADF 


指定 了 无 效 的 文件 描述 符 。 


高 级 文件 11O 725 


EINVAL 
指定 了 无 效 的 建议 , 或 者 所 指定 的 文件 描述 符 引 用 了 一 个 管道 (pipe) ， 或 者 所 指 
定 的 建议 无 法 应 用 至 所 指定 的 文件 。 


readahead() 系统 调用 
posix_fadvise() 系统 调用 是 2.6 版 的 Linux 内 楼 新 引进 的 。 在 此 之 前 ， 
readahead() 系统 调用 可 用 于 提供 与 POSIX_FADV_WILLNEED 建议 一 致 的 行为 。 
与 posix_fadvise(}) 不 同 的 是 ，readahead() 是 Linux 特有 的 接口 : 

#include <fcntl].h> 


Bgize t readahead (int fq, 
Offéd 七 offset, 
Bize tt count}): 
周 用 readahead() 可 以 把 文件 描述 符 fa 于 [offset,offset+count) 范围 内 的 
数据 填 人 页 面 缓存 区 。 


返回 值 与 错误 代码 
执行 成 功 时 ，readahead() 会 返回 0; 执行 失败 时 ， 它 会 返回 -1 并 且 将 errno 设 
定 成 下 面 的 其 中 一 个 值 : 
EBADF 
指定 了 无 效 的 文件 摘 述 符 。 
EINVAL 
所 指定 的 文件 描述 符 并 未 映射 至 一 个 支持 预 读 功 能 的 文件 。 


建议 是 廉价 的 

有 些 常见 的 应 用 程序 工作 量 轻易 就 能 受益 于 对 内 核 的 善意 建议 .此 类 建议 对 LO 负 检 的 
减轻 有 很 大 的 帮助 。 由 于 硬盘 速度 如 此 之 慢 , 而 现代 的 处 理 器 如 此 之 快 , 每 一 个 小 协助 
与 好 建议 都 会 有 莫大 的 帮助 

读 取 文件 的 一 个 数据 块 之 前 ， 进 程 可 以 提供 POSIX_FADV_WILLNEED 建议 ， 以 指示 
内 核 将 文件 读 取 到 页 面 缓 存 区 。LO 将 在 后 台 以 异步 的 方式 进行 。 当 应 用 程序 最 后 访问 
文件 上 时，LO 操作 可 以 顺利 完成 而 不 会 遭 到 阻挡 。 


反 过 来 说 ， 读 取 或 写 人 许多 数据 后 一 一 例如 有 连续 的 视频 流 被 送 往 磁 盘 ， 进 程 可 以 提 
供 POSTIX_FADV_DONTNEED 提示 ,以 指示 内 核 从 页 面 缓 存 区 收回 文件 的 特定 数据 块 。 
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一 个 大 型 的 流 操作 会 把 数据 不 断 填 入 页 面 缓存 区 。 如 果 应 用 程序 不 打算 再 次 访问 这 些 数 
据 ， 这 意味 着 页 面 缓存 区 将 充满 多 余 的 数据 ， 而 且 会 牺牲 其 他 可 能 有 用 的 数据 。 因 此 ， 
对 视频 流 应 用 程序 而 言 ， 明 智 的 做 法 是 定期 请 求 内 核 从 缓存 区 中 过 出 流 数据 。 


相 读 取 一 整个 文件 的 进程 可 以 提供 POSIX_FADV_SEQUENTIAL 建议 ,以 指示 内 核 执 
行 积极 的 预 读 操 作 。 反 过 来 说 ,一 个 进程 若 知道 它 将 要 随机 访问 一 个 文件 , 来 回 查 找 数 
据 ， 则 可 以 提供 POSIX_FADV_RANDOM 建议 ， 以 指示 内 核 预 读 操作 只 不 过 是 全 无 价 
值 的 开销 。 


一 一 | 

同步 化 、 同 步 及 异步 操作 

Unix 系统 大 量 地 使 用 “同步 化 ”(synchronized). “异步 化 ”(nonsynchronized).、“ 同 
步 ”(synchronous) 以 及 “异步 ”(asynchronous) 等 令 人 混 请 的 术语 一 可 类 文春 言 ， 
“synchronous” 与 “synchronized” 的 差异 并 不 大 | 


同步 (synchronous) 写 入 操作 会 等 到 所 写 入 的 数据 (至 少 ) 被 存 人 内 核 的 缓冲 绥 在 区 
(buffer cache) 后 才 返 回 。 同步 读 取 操 作 会 等 到 所 读 取 的 数据 被 存 入 应 用 程 夺 所 提供 的 
用 户 空间 缓冲 区 (user-space buffer) 后 才 返 回 。 另 一 方面 ， 异 步 (asynchronous) 与 人 
操作 会 在 数据 离开 用 户 空间 之 前 先 返 回 , 异 步 读 取 操 作 会 在 有 数据 可 供 读 取 之 前 先 返 回 。 
也 就 是 说 ， 这 些 操作 只 是 先 被 排 人 队列 待 稍 后 再 进行 。 当 然 ， 在 此 情况 下 ,必须 存在 某 
个 机 制 以 便 判 断 这 些 操 作 是 否 真 的 完成 了 以 及 实际 的 结 朱 。 


相 较 于 同步 操作 ， 同 步 化 (synchronized) 操作 有 较 多 的 限制 ， 修 是 更 为 安全 。 同 步 化 
写 人 操作 会 将 数据 刷新 至 磁盘 , 以 确保 磁盘 上 的 数据 与 相应 的 内 核 缓冲 区 始终 是 同步 的 。 
”同步 化 读 取 操 作 总 是 会 返回 数据 的 最 新 副本 ， 而 且 可 假 放 它 来 和 目 磁盘 。 


总 之 , “同步 ”与 “异步 ”等 术语 用 于 指出 LO 操作 在 返回 之 前 是 否 需 要 等 待 某 个 事件 
(例如 数据 的 存储 ), 而 “同步 化 ” 与 “异步 化 ”等 术语 则 用 于 指定 必须 发 生 何 种 事件 ( 例 
如 将 数据 写 人 磁盘 )。 


一 般 情 况 下 ，Unix 的 写 人 操作 是 同步 进行 但 异步 化 的 ， 而 读 取 操作 则 是 同步 进行 且 间 
步 化 的 〈 注 3)。 对 写 人 操作 而 言 ， 这 些 特 点 的 每 个 组 合 都 是 可 能 的 ， 如 表 4-1 所 示 。 


注 了: 读 取 操作 从 技术 上 来 说 也 是 异步 化 的 ,就 像 写 入 操作 那样 ,但 是 内 慷 会 确保 页 面色 存 区 
包含 最 新 的 数据 。 也 就 是 说 ,页 面色 站 区 的 数据 总 是 跟 碘 盘 上 的 数据 一 样 或 是 比 磁盘 上 
的 数据 还 新 。 因 此， 其 行为 实际 上 始终 是 同步 化 的 ， 
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表 4-1: 写 入 操作 的 同步 状态 
同步 化 异步 化 

同步 写 人 操作 会 等 到 数据 被 刷新 至 磁 盐 后 才 写 人 操作 会 等 到 数据 被 存 人 内 核 续 
返回 。 如 里 文件 打开 时 指定 了 0_SYNC， ” 冲 区 后 才 返 回 。 这 是 通常 的 行为 模 
便 会 表现 此 行为 式 

异步 写 人 操作 会 在 写 人 请 求 被 排 人 队列 后 返 写 人 操作 会 在 写 入 请 求 被 排 入 队列 
回 。 等 到 该 写 入 操作 执行 时 ， 数 据 保证 后 返回 。 等 到 该 写 人 操作 实际 执行 
仿 被 与 人 磁盘 时 ， 数 据 保 证 至 少 会 被 存 人 内 核 绥 

冲 区 


Pu PO 





污 取 操作 始终 是 同步 化 的 ， 因 为 读 取 旧 数据 毫 无 意义 。 然 而 如 表 4-2 所 示 , 此 类 操作 可 
以 是 同步 的 ， 也 可 以 是 异步 的 。 
表 4-2: 读 取 操作 的 同步 状态 
同步 化 
同步 。 ” 读 取 操作 会 在 最 新 的 数据 被 存 人 所 提供 的 缓冲 区 后 返回 (这 是 通常 的 行为 模式 ) 
异步 。 读 取 操作 会 在 读 取 请 求 被 排 入 队列 后 返回 ,但 是 当 读 取 操作 实际 执行 时 会 返回 最 新 
的 数据 
在 第 二 章 中 ， 我 们 讨论 过 如 何 对 写 入 操作 进行 同步 化 (通过 0_SYNC 标志 )， 以 及 如 何 
确保 所 有 的 IO 在 特定 的 点 上 已 被 同步 化 (通过 fsync () 及 相关 的 函数 )。 现 在 ， 让 
我 们 来 看 看 如 何 进行 异步 的 读 取 与 写 人 操作 。 


异步 MO 
执行 异步 MO 需要 内 核 在 非常 低 的 层次 有 所 支持 。 符 好 Linux 实现 了 POSIX 1003.1- 
2003 所 定义 的 aio 接口 。aio 链接 库 提供 了 一 系列 国 数 以 提交 蜡 步 VO 并 在 它 完成 时 可 
以 收 到 通知 : 


#include x<aio.h> 


/:* asynchronous I/O control block */ 
Btruct aiocb 1 


int aio filedes; /* file descriptor */ 

int aio lico opcode; i/* operation to perform */ 
int aio regqprio; /i* reqmest priority offaet */ 
volatile void *aio buf:; 外 二 Pointer to buffer */ 
Bize t aio nbpytes; :** length of operation */ 


struct sigevent aio sigevent;y /* gignal number and value */ 
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/* internal, private members follow... */ 


int aio read (gtruct aiocb *aiocbp): 

int aio write (struct aiocb *aiocbhp); 

int aio error (conaet struct aiocb *aiocbp)}): 

int aio return (struct aiocb *aiocbhp); 

int aio cancel {int fd, struct aiocb *aiocbp}):} 

int aio fsync (int op, struct aiocb *aiocbp); 

int aio suspend (congt struct aiocb * const cblist[], 
int n, 
const struct timespec *timeout)});} 


基于 线程 的 异步 MO 

Linux 仅 会 对 以 0O_DIRECT 标志 打开 的 文件 支持 waio。 要 对 并 非 以 O_DIRECT 标志 打 
开 的 常规 文件 执行 异步 ,我 们 必须 阿 肉 寻求 自己 的 解决 方案 。 没有 内 核 的 支持 、 我们 只 
得 期 望 能 够 近似 异步 UO， 让 结果 类 似 真 实 的 情况 。 


首先 ， 让 我 们 来 看 看 为 何 应 用 程序 开发 者 想 要 执行 异步 MO: 


。 执行 VO 操作 时 不 想 遭 到 阻挡 

s。 将 TO 排 人 人 队列、 提交 TO 给 内 核 、 接 收 操作 完成 通知 等 动作 分 开 

第 一 点 关系 到 性 能 .。 如果 LO 操作 不 会 遭 阻挡 , 则 TO 的 开销 就 会 为 零 ， 而 进程 也 不 需 
要 成 为 UO-bound ( 输 和 人 /输出 密集 型 )。 第 二 点 关系 到 过 程 (procedure)， 它 只 是 处 理 
TAO 的 另 一 种 方法 。 

完成 以 上 目标 的 最 第 见方 法 就 是 使 用 线程 (调度 事宜 在 第 五 章 和 第 六 章 有 详细 的 探讨 )。 
此 方法 包括 以 下 程序 设计 任务 : 

1. 创建 一 个 “工作 者 线程 ”(worker thread) 池 以 便 处 理 所 有 IO。 

2. ”实现 一 组 接口 以 便 将 LO 操作 放 入 一 个 工作 队列 。 


3. 这 些 接口 必须 返回 独一无二 的 WO 描述 符 以 便 识 别 相应 的 1/0O 操作 。 在 每 个 工作 者 
线程 中 ,从 队列 的 头 部 取出 (grab) LO 请 求 并 且 提 交 它 们 , 等 待 它们 完成 WO 操作 。 


4. 完成 MO 操作 后 ， 将 操作 的 结果 (返回 值 、 错 误 代码 、 所 读 取 的 任何 数据 ) 放 入 


一 个 结果 队列 中 。 
5 实现 一 组 接口 以 便 从 结果 队列 取 回 状态 信息 ， 使 用 最 初 所 返回 的 WO 描述 符 来 识 
别 每 项 操作 。 


这 样 便 能 提供 类 似 POSIX 的 aio 接口 的 行为 ,但 是 在 线程 管理 方面 会 有 比较 大 的 开销 。 
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MO 调度 程序 与 I/O 性 能 

在 现代 系统 中 ,磁盘 与 系统 其 他 组 件 之 间 的 相对 性 能 差距 相当 大 一 一 并 且 不 断 扩 大 。 磁 
盘 性 能 的 瓶颈 出 现在 将 读 / 写 头 (read/write head) 从 磁盘 的 一 个 部 分 移 往 另 一 个 部 分 
的 过 程 ， 这 就是 众所周知 的 查找 (seek) 操作 。 在 许多 操作 和 皆 以 若干 处 理 器 周期 (每 个 
处 理 周期 很 可 能 只 有 13 纳 秒 ) 衡量 的 世界 中 , 单一 磁盘 查找 操作 平均 消耗 的 时 间 可 能 
就 会 超过 8 毫秒 一 一 尽管 这 仍 是 一 个 小 数量 ,但 却 是 单一 处 理 器 周期 (processor cycle) 
的 500 万 倍 以 上 ! 


由 于 磁盘 驱动 荷 与 系统 其 他 组 件 之 则 的 性 能 相差 二 殊 ， 生 按照 发 出 WO 请求 的 顺序 将 WO 
请 求 传送 给 磁盘 ,效率 将 会 非常 差 。 因 此 现代 操作 系统 内 核 会 实现 MO 调度 程序 
(scheduler)， 通 过 调整 服务 VO 请 求 的 顺序 以 及 时 间 ， 尽 量 减 少 磁盘 查找 的 次 数 和 大 
小 。1O 调度 程序 会 尽 其 所 能 地 降低 磁盘 访问 对 系统 性 能 所 造成 的 影响 。 


磁盘 寻 址 


要 了 解 WO 调度 程序 的 作用 ， 需 要 具备 一 些 背 景 知 识 。 硬 盘 采 用 基于 几何 (geometry- 
based) 的 磁 柱 (cylinder)、 磁 头 (head) 和 局 区 (sector) 寻 址 法 ,或 称 为 CHS 寻 址 
法 , 来 寻 址 其 数据 。 一 块 硬盘 由 多 个 盘 片 (platrer) 组 成 , 每 个 盘 片 由 一 个 磁盘 (disk)、 
磁 轴 (spindle) 以 及 读 / 写 头 组 成 。 你 可 以 将 每 个 盘 片 想 成 是 一 片 光盘 (或 唱片 ), 而 硬 
盘 中 的 一 组 盘 片 可 想 成 是 一 敬 光 盘 。 如 同 光 盘 ， 每 个 盘 片 可 划分 成 多 个 圆 环 状 的 磁道 
(tracKk) 。 每 小 陪 道 又 可 划分 成 整数 个 驹 区。 


为 了 定位 硬盘 上 特定 的 数据 单元 ,磁盘 驱动 器 的 逻辑 需要 三 种 信息 : 磁 柱 、 磁 头 以 及 剧 
区 的 值 。 磁 柱 值 用 于 指定 数据 被 摆 在 哪个 磁道 上 。 如 果 你 将 一 个 盘 片 放 在 另 一 个 盘 片 之 
上 ， 则 所 指定 的 磁道 就 会 通过 每 个 盘 片 形成 一 个 磁 柱 。 换 言 之 ， 一 个 磁 柱 由 每 个 磁盘 上 
与 轴 心 等 距离 的 磁道 组 成 。 磁 头 值 用 于 指出 数据 位 于 哪个 读 / 写 头 〈 因 此 也 指出 了 数据 
位 于 哪个 盘 捕 )。 查 找 的 范围 现在 缩小 到 了 单一 盘 片上 的 单一 磁道 。 扇 区 值 用 于 指出 数 
据 位 于 该 磁道 上 的 哪个 局 区 。 现 在 数据 的 查找 工作 完成 了 , 硬盘 知道 要 到 哪个 盘 片 、 哪 
个 磁 章 以 及 哪个 属 芍 找 数据 。 它 可 以 把 正确 盘 片 的 读 / 写 头 放 在 正确 的 磁道 上 ， 以 便 读 
取 或 写 人 到 所 需要 的 遍 区 。 


值得 庆幸 的 是 ,现代 的 硬盘 并 不 强迫 计算 机 使 用 磁 柱 、 磁 头 和 启 区 来 跟 它 沟通 。 现 代 的 
硬盘 会 将 独一无二 的 块 编号 (block number, 也 称 为 “物理 块 ” 或 者 “设备 块 ”) 映射 至 
每 个 cylinder/head/sector 的 三 重组 合 有 效 地 将 一 个 块 映射 至 一 个 特定 的 扇 区 。 于 
十 现代 操作 系统 可 以 使 用 这 些 块 编 号 来 寻 址 硬盘 一 一 此 过 程 称 为 逻辑 块 寻 址 {logical 
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plock addressing， 常 简写 为 LBA) 而 硬盘 内 部 会 将 抉 编 号 转换 成 正确 的 CHS 地 
址 ( 注 4)。 块 与 CHS 的 映射 关系 往往 是 顺序 的 , 但 是 不 保证 一 定 是 这 样 : 硬盘 上 的 物理 
块 n 往往 就 物理 地 毗 邹 逻辑 块 n + 1。 这 种 顺序 映射 关系 很 重要 ， 我 们 很 快 就 会 看 到 。 





另 一 方面 ,文件 系统 仅 存 在 于 软件 中 。 其 所 操作 的 是 自己 的 数据 单元 , 称 为 逻辑 块 (iogie 
plock， 有 时 称 为 “文件 系统 块 ", 或 者 仅 称 为 “ 块 ")}。 加 辑 块 的 大 小 必须 是 物理 岂 大 小 
的 整数 倍 。 .换言之 ， 文 件 系 统 的 逻辑 块 会 映射 至 硬盘 上 的 一 个 或 多 个 物理 块 。 


调度 程序 的 生命 周期 

LO 调度 程序 会 执行 两 项 基本 操作 :合并 与 排序 。 合 并 是 取得 两 个 或 多 个 邻近 的 MO 请 
求 并 且 将 它们 组 合成 单一 请 求 的 过 程 。 假 设 有 两 个 请 求 , -个 请 求 用 于 读 取 磁 盘 块 (disk 
block) 5， 另 一 个 请 求 用 干 读 取 磁 盘 块 6 ~ 7。 这 些 请 求 可 以 合并 成 读 取 磁 盘 块 5 ~ 7 
的 单一 请 求 。 尽 管 VO 的 总 数据 量 不 变 ， 但 是 MO 操作 的 次 数 却 少 了 一 半 。 


排序 是 这 了 惠 一 操 竺 定 较 为 重要 的 一 个 。 排 序 是 按照 递增 的 块 顺序 安排 未 决 (pending) 
LO 请 求购 过 程 。 例 如 ， 现 在 有 三 个 针对 块 S2、109 和 ?7 的 WO 操作 请 求 ，LO 调度 程 

会 把 这 些 请 求 安 排 成 7、52 和 109 的 顺序 。 ee 了 针 对 块 81 的 请 求 ， 则 
IO 调度 程序 就 会 把 它 桂 在 块 52 和 109 .之 间 。 于 是 L/O 调度 程序 会 按照 未 决 请 求 在 队 
列 中 的 顺序 (先是 7， 然 后 是 $S2， 然 后 是 81 ， 最 后 是 109) 拍 庆 请 求 给 磁盘 。 


这 样 可 以 尽量 减少 磁头 的 移动 .避免 宵 目 地 移动 磁头 一 一 从 这 里 到 那里 并 且 反 加 移动 ， 
查找 整个 磁盘 ,应 该 以 平顺 、 线 性 的 方式 移动 磁头 。 因 为 查找 是 磁盘 MO 中 代价 最 高 的 
操作 ， 所 以 这 样 做 性 能 可 以 得 到 改善 。 


对 读 取 操作 的 帮助 

每 个 读 取 请 求 必 须 返 回 最 新 的 数据 .因此 ,如 果 被 请 求 的 数据 并 未 出 现在 页 面 缓 存 区 中 ， 
污 取 进程 必须 遭 到 阻挡 ,直到 可 从 磁盘 读 取 数据 为 目 这 可 能 是 一 个 元 长 的 操作 ,我 
们 将 这 种 性 能 影响 称 为 读 取 延 迟 (read latency)。 





一 个 典型 的 应 用 程序 可 能 会 在 租 时 间 内 发 起 数 个 读 取 请 求 ,因为 每 个 请 求 古 单独 同步 化 
的 ， 所 以 后 血 的 请 求 是否 能 完成 取决 于 前 面 的 请 求 完成 与 否 。 坝 在 假设 要 读 取 一 个 目录 
中 的 每 个 文件 。 应 用 程序 会 打开 第 一 个 文件 ， 读 取 它 的 一 个 数据 块 ， 等 待 数 据 的 到 来 ， 


注 和 4. 此 抉 蝙 号 的 名 对 大 小 (absolute size】 的 限额 多 年 来 主要 员 责 总 硬盘 大 小 {total drive 
sizes) 上 的 和 名 种 限额 ， 
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读 取 另 一 个 数据 块 等 等 ,直到 读 完 整个 文件 。 然 后 应 用 程序 会 对 下 一 个 文件 重复 以 上 操作 。 
这 些 请 求 会 变 成 序列 化 的 (serialized) : 除非 完成 当前 的 请 求 , 否则 无 法 送出 随后 的 请 求 。 


这 与 写 人 请 求 形成 鲜明 的 对 比 ， 写 入 请 求 (默认 为 异步 化 的 状态 ) 不 需要 发 起 任何 磁盘 
IO 直到 未 来 的 某 个 时 间 。 因 此 ， 从 用 户 空间 应 用 程序 的 观点 来 看 ， 写 入 请 求 流 不 会 妨 
碍 磁盘 的 性 能 。 写 入 流 的 行为 只 会 让 读 取 流 的 问题 加 剧 : 因为 写 入 流 会 把 持 着 内 核 和 磁 
盘 的 关注 不 放 。 此 现象 称 为 “ 写 人 饿 死 读 取 ” (writes-starving-reads) 问题 。 


如 果 一 个 1/O 调度 程序 总 是 以 插入 的 顺序 来 存储 新 的 请 求 , 结果 可 能 会 饿 死 针 对 蜗 远 块 
的 请 求 。 承 前 例 ， 如 果 在 50 秒 内 又 连续 送出 针对 各 个 块 的 新 请 求 ， 则 针对 块 109 的 请 
求 可 能 远 永 都 不 会 被 服务 到 。 因 为 读 取 延 退 至 关 重 要 , 所 以 这 个 行为 严重 伤害 了 系统 性 
能 。 因 此 ，LO 调度 程序 采用 了 一 个 可 以 避免 饭 死 的 机 制 。 


一 个 简单 的 方法 一 一 例如 2.4 版 Linux 内 核 的 /0 调度 程序 , 称 为 Linus Elevator ( 莱 
纳 斯 电梯 ) ( 注 5)， 所 采取 的 做 法 就 是 在 队列 中 出 现 待 得 很 久 的 请 求 时 ， 便 停止 插入 排 
序 (insertion-sorting) 的 动作 。 公 平 对 待 每 个 请 求 对 整体 性 能 将 有 所 帮助 ， 就 读 取 请 求 
而 言 ， 这 将 可 改善 延迟 时 间 。 问 题 是 这 种 探 试 性 机 制 (heuristic) 似乎 把 事情 想 得 太 简 
单 了 。 有 鉴于 此 ，2.6 版 Linux 内 核 淘 汰 了 Linus Elevator 并 且 公 布 了 数 种 新 的 MO 调 
度 程序 。 


Deadline MO 调度 程序 
Deadline (期 限 ) VO 调度 程序 可 解决 2.4 版 内 核 的 UVO 调度 程序 以 及 传统 电梯 算法 的 
- 般 问 题 。Linus Elevator 维护 了 一 份 经 排序 的 未 决 WO 请 求 列表 。 位 于 队列 头 部 的 WO 
请 求 是 下 一 个 要 被 服务 的 对 象 。Deadline LO 调度 程序 保留 了 此 队列 , 但 是 为 了 让 问题 
有 所 改善 ， 额外 引进 了 两 个 队列 : 读 取 请 求 FIFO 队列 以 及 写 入 请 求 FIFO 队列 。 这 两 
个 队 到 中 的 元 素 皆 按照 提交 时 间 排 序 过 (有 利于 先入 先 出 的 操作 )。 读 取 请 求 FIFO 队 
列 正如 其 名 ， 其 中 只 包含 读 取 请 求 。 同 样 地 ， 写 人 请 求 FIFO 队列 中 只 包含 写 人 请 求 。 
FIFO 队列 中 每 条 请 求 都 会 被 赋予 一 个 到 期 时 间 (expixation time)。 读 取 请 求 FIFO 队 
列 具 有 500 毫秒 的 到 期 时 间 ， 写 入 请 求 FIFO 队列 具有 5 种 的 到 期 时 间 。 


当 一 个 新 的 [I/O 请 求 被 提交 时 ， 它 会 被 插入 排序 (insertion-sorted) 至 标准 队列 ， 而 且 
会 被 放 在 相应 ( 读 取 请 求 或 写 人 请 求 ) 的 FIFO 队列 的 尾 端 。 一 般 而 言 ， 送 给 硬盘 和 的 W/O 
请 求 会 来 自己 排序 标准 队列 的 头 部 。 若 能 尽量 减少 查找 ,将 可 获得 最 好 的 整体 性 能 ， 因 
为 标 淮 队列 按 块 编写 排序 过 (如同 Linus Elevator) 。 


注 5， 没 错 ， 衣 个 LO 调度 程序 以 人 名 来 命名 。1L/O 调度 程序 有 时 称 为 电梯 (elevator) 算法 ， 
因为 此 类 算法 解决 问题 的 方式 类 似 于 让 电梯 运作 平稳 的 笋 法 ， 
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当 有 一 个 FIFO 队列 的 头 部 出 现 已 到 期 的 项 目 时 ，LO 调度 程序 会 停止 从 标准 队列 派 还 
1/O 请 求 ,， 而 会 开始 服务 来 自 读 FIFO 队列 的 请 求 一 一 所 服务 的 是 位 于 FIFO 队列 基部 
的 请 求 ， 再 加 上 一 批 额 外 的 请 求 。LO 调度 程序 只 需要 检查 位 于 队列 头 部 的 请 求 ， 因 为 
这 些 都 是 持续 了 最 入 的 请 求 。 


这 样 ，Deadline LI/O 调度 程序 可 以 对 LO 请 求实 施 软 性 期 限 (sott deadlline) 。 尽管 无 法 
保证 WO 请 求 会 在 它 时 间 届 满 之 前 被 服务 到 , 不 过 IO 调度 程序 一 般 可 以 在 MO 请 求 接 
近 到 期 时 间 的 时 候 服 务 它 。 因 此 ，Deadline LO 调度 程序 会 在 没有 任何 一 个 请 求 会 挨 馈 
太 久 的 情况 下 持续 提供 -个 不 错 的 整体 性 能 。 因 为 读 取 请 求 具 有 较 短 的 到 期 时 间 , 所 以 
写 入 饭 死 读 取 的 问题 会 被 最 小 化 。 


Anticipatory MO 调度 程序 

尽管 Deadline LO 调度 程序 已 经 不 错 了 ,但 是 并 不 完美 。 这 与 读 取 依赖 性 (read 
dependency) 有 关 。 使 用 Deadline IO ed 如 果 一 系列 读 取 请 求 中 的 第 一 个 
读 取 请 求 的 到 期 时 间 已 到 或 快要 到 了 , 它 会 马上 获得 服务 , 然后 MO 调度 程序 会 回头 服 
务 来 自己 排序 队列 (sorted queue) 的 WO 请 求 一 一 到 目前 为 止 一 切 顺 利 。 但 假 
程序 取得 数据 后 接着 又 送出 男 一 个 污 取 请 求 , 那 会 如 何 ? 最 后 它 也 会 到 达到 期 时 间 ， 

1/O 调度 程序 会 把 它 提 交 给 磁盘 ， 而 磁盘 会 立即 进行 查找 以 便 处 理 该 请 求 ， 
找 回 来 以 继续 处 理 米 自己 排序 队列 的 请 求 。 这 种 来 回 查 找 的 现象 可 能 会 持续 一 段 时 间 ， 
因为 许多 应 用 程序 都 会 呈现 此 行为 。 尽 管 延 迟 时 间 被 保持 在 最 少 , 但 是 整体 性 能 并 不 十 
很 好 ， 因 为 有 读 取 请 求 不 断 涌 进 , 十 是 磁盘 必须 继续 来 回 进行 查找 ,以 便 处 理 它 们 。 如 
果 磁 盘 可 以 停顿 片刻 去 等 待 男 -- 个 读 取 请 求 , 而 不 立即 去 服务 已 排序 的 队列 , 则 性 能 可 
以 获得 改善 。 但 不 幸 的 是 , 到 了 应 用 程序 被 调度 的 时 候 , 它 又 提交 了 下 一 个 无 关 的 读 取 
请 求 ， 于 是 I/O 调度 程序 又 换 档 (shifted gears) 了 。 


问题 又 是 源 自 读 取 依 赖 一 一 只 有 在 从 前 一 个 读 取 请 求 返 回 时 才 可 以 运 出 新 的 读 取 请 求 ， 
但 等 到 应 用 程序 取得 读 取 数据 ， 被 调度 以 备 运行 并 提交 它 的 下 一 个 读 取 请 求 ，1/O 调度 
程序 却 已 经 走 开 并 着 手 服 务 其 他 请 求 。 结果 每 个 读 取 请 求 党 于 浪费 了 两 次 查找 时 间 : 磁 
i 请 求 进行 查找 以 便服 务 它 ， 然 后 义 往 回 查 找 。 和 如果 UVO 调度 程序 有 办 法 知 
(anticipate ) 另 -一 个 读 取 请 求 很 快 会 被 提交 给 磁盘 的 同一 个 部 分 ， 
就 不 会 间 来 回 查 找 , 它 预期 可 以 等 到 下 一 个 读 取 请 求 ,为 了 市 省 大 量 的 查找 上 时间， 
浪费 几 毫 种 的 等 待 时 间 绝 对 是 值得 的 。 


这 就 是 Anticipatory (预测 ) WO 调度 程序 的 运作 方式 。 它 一 开始 是 Deadline (期 限 ) 


1/O 调度 程序 ， 但 是 具备 额外 的 预 负 机制。 若 有 一 个 读 取 请 求 被 提交 ， 则 Anticipatory 
LO 调度 程序 会 在 期 限 内 对 它 提供 服务 ， 一 如 往常 。 然 而 ， 与 Deadline LO 调度 程序 不 
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同 的 是 ，Anticipatory IO 调度 程序 接着 就 什么 事 也 不 做 地 等 待 至 多 6 毫秒 的 时 间 。 旋 
用 程序 有 机 会 在 这 6 毫秒 的 时 间 内 送出 另 一 个 针对 文件 系统 中 同一 部 分 的 读 取 请 求 。 如 
果 是 这 样 的 话 ， 该 请 求 会 立即 获得 服务 ， 而 且 Anticipatory WO 调度 程序 会 等 到 更 多 请 
求 。 如 果 6 毫秒 过 去 了 并 没有 出 现 读 取 请 求 ， 则 Anticipatory LO 调度 程序 会 判断 它 托 
错 了 ， 而 且 会 回去 做 它 之 前 该 做 的 事 《也 就 是 去 服务 已 排序 的 标准 队列 )。 如 未 能 够 有 
适当 数量 的 请 求 被 预测 成 功 ， 则 可 以 节省 大 量 的 时 间 一 一 每 成 功 一 次 等 于 两 次 代价 总 
的 查找 操作 。 因 为 多 数 读 取 请 求 都 是 彼此 依赖 的 ,所 以 预 铀 算法 所 付出 的 代价 是 值得 的 。 


CFQ MGO 调度 程序 

Complete Fair Queuing (完全 公平 队列 ， 简 称 CFQ) 1O 调度 程序 可 达成 相同 的 目标 ， 
尽管 它 采 用 了 不 同 的 方法 ( 注 6) 。 使 用 CEFQ 时 , 每 个 进程 都 会 被 指定 一 个 独立 的 队列 ， 
而 每 个 队列 都 会 被 指定 一 个 时 间 片 (timeslice)。1O 调度 程序 会 以 辊 转 的 方式 (round- 
robin fashion) 扫描 每 个 队列 ， 服 务 队 列 里 的 请 求 ， 直 到 读 队 列 的 时 间 片 用 完 或 该 队列 
已 无 未 决 请 求 。 就 后 者 而 言 ，CFQ LUO 调度 程序 将 闲置 一 段 时 间 (默认 为 10 毫秒 ) 等 
待 队列 里 出 现 新 的 请 求 。 如 果 预 期 得 到 回报 , 则 MO 调度 程序 可 以 免 醒 查找 的 动作 ， 如 
果 没 有 ， 则 等 待 是 徒劳 的 ， 于 是 调度 程序 会 移 往 下 一 个 进程 的 队列 。 

在 每 个 进程 的 队列 里 , 同步 化 请 求 (例如 读 取 请 求 ) 的 优先 级 高 于 异步 化 请 求 。 使 用 这 种 
方式 ，CFQ 会 让 读 取 请 求 优 先 ， 于 是 可 避免 号 人 俄 死 读 取 问 题 。 因 为 每 个 进程 均 设 站 了 
队列 ， 所 以 CFQ MO 调度 程序 会 公平 对 待 所 有 进程 ， 同 时 仍然 能 够 提供 不 错 的 整体 性 能 。 


CFQ LO 调度 程序 非常 适合 大 部 分 的 工作 最 ， 这 使 得 它 成 为 电梯 的 第 一 选择 。 


Noop 1/O 调度 程序 
Noop (无 运算 ) 1/0 调度 程序 是 最 基本 的 电梯 。 它 不 会 排序 ， 只 会 进行 基本 的 合并 ， 可 
用 于 无 需 排 序 IO 请 求 的 特殊 设备 。 


选择 并 设 定 你 的 MO 调度 程序 

趴 it IO 调度 程序 可 以 在 开机 时 经 iosched 的 内 核 命令 行 参 数 elevator= 来 选择 。 有 
效 的 选项 包括 as ，、cfq 、deadline 以 及 noo0p。 你 还 可 以 在 内 核 运 行 时 经 /sysr/blockr 
device/aqueue/scheduler 来 为 特定 的 设备 选择 UVO 调度 程序 。 读 取 此 文件 可 退回 
相应 设备 当前 所 使 用 的 LO 调度 程序 , 对 此 文件 写 人 一 个 有 效 的 选项 便 可 以 对 相应 的 设备 


注 日 : 接 下 来 所 探讨 的 CFQ LO 调度 程序 正如 它 当 前 的 实现 。 以 往 的 实现 并 未 使 用 时 间 广 
(timeslice) 或 是 探 试 性 预测 【anticipation heuristic)， 而 是 以 类 似 的 万 式 运 作 。 
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设 定 VO 调度 程序 。 例 如 ， 要 将 设备 hda 设 定 成 使 用 CFQ LO 调度 程序 ， 可 以 这 人 么 做 : 


# echo cfog > sys/block/hda/gqueue/scheduler 


此 外 ， 目 录 /sys/blockK/device/queue/iosched 中 所 包含 的 文件 让 管理 者 可 以 取得 
并 设 定 与 IO 调度 程序 有 关 的 可 调整 值 。 要 操作 哪些 选项 取决 于 当前 所 使 用 的 WO 调度 
程序 ， 要 变更 任何 设 定 值 则 必须 具备 root 特权 。 


一 个 好 的 程序 设计 者 并 不 需要 了 解 底层 的 VO 子 系统 。 尽管 如 此 ,对 这 个 子 系统 有 所 认 
识 将 有 利于 程序 的 优化 。 


优化 MO 性 能 
因为 相对 于 系统 中 其 他 组 件 而 言 , 磁盘 1/O 的 速度 是 如 此 的 缓慢 , 然而 MO 却 是 现代 计 
算 机 技术 一 个 重要 的 方面 ， 所 以 1/O 性 能 的 最 大 化 至 关 重 要 。 


尽量 减少 MO 操作 【将 许多 规模 较 小 的 操作 凝聚 成 少数 规模 较 大 的 操作 ) ， 执 行 对 齐 块 
大 小 的 IO 或 者 使 用 用 户 缓 冲 机 制 (参见 第 三 章 ), 以 及 利用 高 级 MO 技术 一 一 例如 向 
量 式 WO、 特 定位 置 的 WO (参见 第 二 章 )、 异 步 WO， 这 些 都 是 进行 系统 程序 设计 时 必 
须 加 以 考虑 的 重要 步骤 。 


然而 ，1/O 密集 型 关键 应 用 程序 则 可 以 利用 额外 的 技巧 来 最 大 化 性 能 (maximize 
performance)。 尽 管 Linux 内 核 ， 正如 先前 所 提 到 的 ,会 利用 高 级 的 MO 调度 程序 来 尽 
量 减 少 可 怕 的 磁盘 查找 操作 , 不 过 用 户 空 间 应 用 程序 也 可 以 朝 相 同 的 目标 , 使 用 类 似 的 
方式 以 进一步 改善 性 能 。 


用 户 空间 的 MO 调度 
UO 密集 型 应 用 程序 会 发 出 大 量 的 WO 请 求 ， 而 且 需 要 花 时 间 排 序 及 合并 其 未 决 的 110 
请 求 ， 进 行 与 Linux LO 调度 程序 一 样 的 工作 ( 注 7)。 


如 果 你 知道 TO 调度 程序 会 逐 块 地 排序 请 求 、 最 小 化 查找 (minimizing seeks) 以 及 让 
磁盘 的 读 写 头 平稳 地 以 线性 的 方式 移动 , 那么 你 可 能 会 觉得 奇怪 , 为 何 相 同 的 工作 要 做 
两 届 ? 现在 假设 有 一 个 应 用 程序 提交 了 大 量 未 排序 的 MO 请 求 . 这 些 请 求 将 以 一 般 随 机 
的 顺序 抵达 1/O 调度 程序 的 队列 。IMO 调度 程序 会 履行 它 的 责任 ,在 把 这 些 请 求 送 往 磁 
盘 之 前 ， 对 它们 进行 排序 及 合并 一 一 但 是 在 这 些 请 求 开 始 提交 给 磁盘 的 同时 ， 应 用 程 


注 7: 此 处 所 探讨 的 技术 应 该 只 能 使 用 于 IO 密集 型 美 键 应 用 程序 。 对 没有 任何 东西 可 排序 的 
应 用 程序 【因为 它 并 未 送出 许多 IO 请求) 进行 IO 请 求 的 排序 是 转生 且 不 必要 的 ， 
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序 仍 会 产生 11O 并 且 提 交 它 们 。VO 调 度 程 序 -- 段 时 间 内 只 能 排序 一 小 部 分 的 请 求 一 一 
例如 ， 有 少数 来 自 此 应 用 程序 , 而 其 余 多 数 是 未 决 请 求 。 尽 管 应 用 程序 的 每 批 请 求 都 经 
过 排序 ， 但 是 整个 队列 以 及 之 后 的 任何 请 求 都 不 是 这 个 已 排序 结 来 的 一 部 分 。 


因此 ， 如 果 一 个 应 用 程序 产生 了 许多 请 求 一 一 特别 是 如 果 这 些 请 求 是 用 十 访问 过 及 寸 
磁盘 的 数据 的 话 , 而 且 这 个 应 用 程序 又 能 在 提交 这 些 请 求 之 前 先 排序 它们 ,， 则 可 确保 它 
们 按照 所 期 望 的 顺序 抵达 LO 调度 程序 。 


然而 ， 用 户 空间 应 用 程序 所 能 访问 的 信息 与 内 核 不 同 。 在 MO 调度 程序 内 部 的 最 版 层 ， 
这 些 请 求 已 经 根据 物理 磁盘 块 被 指定 。 排 序 它们 并 不 难 , 但 是 在 用 户 空 间 中 , 这些 请 求 
会 根据 文件 和 偏 移 量 被 指定 。 用户 空间 应 用 程序 必须 探索 适合 的 信息 , 并 且 对 文件 系统 
的 布局 (layout) 作出 有 根据 的 猜测 。 


由 于 目的 是 替 针 对 特定 文件 的 一 串 IO 请 求 确定 最 有 利于 查找 的 顺序 (most seek- 
friendly ordering) ， 用 户 空间 应 用 程序 有 以 下 三 种 排序 方式 可 供 选 择 ， 


*。 ”完整 路 径 

. inode 编号 

* 文件 有 的 物理 磁盘 块 

至 于 要 采用 哪 一 种 排序 方式 ， 你 得 作出 取舍 。 下 面 让 我 们 来 看 看 每 一 种 排序 方式 。 


按 路 径 排 序 


按 路 径 名 称 排序 是 最 简单 (但 最 没 效 率 ) 且 接 近 按 块 排序 (block-wise sort) 的 一 种 方 
式 。 由 于 多 数 文件 系统 使 用 的 是 布局 算法 (layout algorithm ) ， 所 以 每 个 目录 中 的 文件 
在 磁盘 上 往往 是 相 邻 的 (因而 这 些 目 录 共 享 同一 个 父 目录 )。 相 同 目录 中 的 文件 在 同一 
时 间 被 创建 的 可 能 性 对 此 一 特性 只 有 增强 的 作用 。 


因此 , 按 路 径 排序 大 致 接近 于 文件 在 磁盘 上 的 物理 位 置 。 相 较 于 位 于 文件 系统 中 和 完全 不 
同 部 分 的 两 个 文件 ,位 于 同一 目录 中 的 两 个 文件 有 更 好 的 机 会 被 放 在 彼此 靠近 的 位 置 上 。 
此 做 法 的 缺点 是 并 未 考虑 碎片 (fragmentation) 问题 : 文件 系统 中 的 逊 片 越 多 ， 按 路 径 
排序 就 越 设 用 处 。 即 使 忽略 碎片 问题 ， 按 路 径 排序 也 只 会 接近 实际 的 按 块 排序 的 顺序 。 
就 优点 而 言 , 按 路 径 排 序 至 少 比 较 适 用 于 所 有 操作 系统 。 无 论文 件 的 布局 采用 何 种 方式 ， 
就 temporal locality (时间 局 部 性 ) 而 言 ， 按 路 径 排序 至 少 有 轻微 的 准确 度 ， 这 也 是 一 
小 容易 完成 的 排序 工作 。 


136 第 四 章 


按 inode 排序 

inode 是 Unix 的 概念 ， 内 含 与 个 别 文件 有 关 的 元 数据 。 尽 管 一 个 文件 的 数据 可 能 会 耗 
用 多 个 物理 磁盘 块 ， 但 是 每 个 文件 只 会 有 一 个 inode (内 含 文件 的 大 小 、 使 用 权限 、 拥 
有 者 等 信息 )。 我 们 将 在 第 七 章 深 入 探讨 inode。 现在 , 你 只 需要 知道 两 件 事 ,每 个 文件 
都 会 有 一 个 相应 的 inode ， 而 且 每 一 个 inode 都 会 被 赋予 独一无二 的 编号 。 


假设 存在 以 下 关系 : 
文件 i 的 inode 编号 < 文件 j 的 inoae 编号 

则 按 inode 排序 会 优 于 按 路 径 排序 。 这 意味 着 ,在 一 般 情况 下 : 
文件 i 的 物理 块 < 文件 j 的 物理 岂 


以 上 关系 适用 于 Unix 风格 的 文件 系统 ， 例 如 ex12 和 exi13。 文 件 系 统 车 不 使 用 实际 的 
inode ， 则 任何 事情 都 可 能 发 生 ， 但 是 inode 编号 〈 无 论 它 映射 至 何 处 ) 依然 是 一 个 不 
钳 的 一 阶 近 似 值 (first-order approximation ) ， 


为 了 取得 inode 编号 ， 可 以 使 用 stat () 系统 调用 (相关 细节 参见 第 七 章 )。 由 于 每 个 
MO 请求 所 涉及 的 文件 都 会 关联 到 一 个 inode， 所 以 这 些 请 求 可 按照 inode 编号 以 从 小 
到 大 的 方式 排序 。 


下 面 是 一 个 简单 的 程序 ， 它 会 输出 特定 文件 的 inode 编号 ， 


#include <stdio.h»> 
tinclude <stdlib,h> 
#include <fent].h> 
#include <sys/types.h> 
#include <svs/stat.h> 


* get_inode 返回 与 特定 文件 描述 符 相 关联 的 文件 的 inode， 
* 执行 失败 时 返回 -1 

sf 

int get_ inode {int fdi 





struct stat buf: 
int ret; 


ret = fstat (fd, gbufl}: 
if tret < 0O} 1 
Perror ("fstat™): 
return -1: 


1 
| 


return buf.st jino: 
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} 


int main ‘(int argcec, char wv*argvt]) 
{ 
intk fd, incde; 


it {arge < 2) 1 
Fprintf tstderr, "uJsSAaAge: $8 <files\n", argv[0]}: 
return 1; 
} 
fd = opaen largv|l], 0 RDONLY)}):; 
if (fd < 0) 1 
perror ("open"}):; 
return 1: 
} 


inode = get_inode (fd):; 
printf ("d\n", lnode).: 


return 0: 


] 
将 get_inode() 国 数 稍微 修改 一 下 就 能 应 用 在 你 的 程序 中 。 


按 inode 编号 排序 有 几 个 优点 : inode 编号 容易 取得 、 容 易 排序 ， 而 且 很 接近 物理 文件 
布局 。 它 的 主要 缺点 臣 : 碎片 问题 会 降低 接近 的 程度 , 这 种 接近 只 是 一 种 猜测 ， 而 且 对 
韭 Unix 文件 系统 而 言 这 种 接近 较 不 准确 。 尽 管 如 此 ， 在 用 户 空 间 对 UVO 请 求 进 行 调 度 
时 ， 这 是 最 常 被 用 到 的 方法 。 


按 物理 块 排序 
设计 你 自己 的 电梯 算法 时 , 最 好 的 办 法 当然 是 按 物 理 磁盘 块 排序 (sort by physical disk 
block) 。 上 正如 稍 早 所 做 的 讨论 ， 每 个 文件 会 被 划分 成 数 个 轴 辑 块 ， 而 逻辑 块 是 一 个 文件 
系统 的 其 小 配置 单元 。 一 个 过 辑 块 的 大 小 与 文件 系统 有 关 , 每 个 逻辑 块 会 映射 至 单一 的 
物理 块 。 因 此 , 我 们 可 以 在 一 个 文件 中 找 出 逻辑 块 的 数目 , 确定 它们 映射 至 哪些 物理 块 ， 
并 根据 此 结果 进行 排序 。 
由 核 提 供 了 一 个 方法 让 我 们 可 以 从 一 个 文件 的 逻辑 块 数目 取得 物理 磁盘 块 。 此 工作 可 通 
过 ioctl() 系统 调用 的 FIBMAP 命令 【相关 细 市 参见 第 七 章 } 来 完成 ， 

ret = ioctl] (fd, FIBMAP, &block). 


if {ret < 0) 
Perror ("ioctl"}); 


其 中 , fa 是 特定 文件 的 文件 描述 符 , 而 block 就 是 逻辑 瑞 (我 们 想 取得 它 的 物理 块 )。 
执行 成 功 时 ， 退 回 并 将 block 灰 换 成 物理 块 编号 。 所 传人 的 逻辑 块 县 有 zero-indexed 
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(索引 从 零 开 始 ) 和 file-relative 的 特性 。 也 就 是 说 ， 如 果 一 个 文件 由 8 个 逻辑 块 组 成 ， 
则 有 效 值 为 0 ~ 7。 


要 找 出 逻辑 块 与 物理 块 的 映射 关系 需要 两 个 步骤 。 首 先 , 我 们 必须 确定 所 指定 文件 中 有 
多 少 块 。 此 工作 可 通过 stat () 系统 调用 来 完成 。 其 次 ， 我 们 必须 针对 每 个 逻辑 块 送 
出 ioct1 10) 请 求 ， 以 便 找到 相应 的 物理 块 。 


下 面 是 一 个 简单 的 程序 ， 执 行 时 只 需要 在 命令 行 上 传递 一 个 文件 名 称 给 它 即 可 


#include <Staio,h> 
#include <stdlib.h> 
#include <fentl.h> 
#include <sys/types.h> 
#include <sys/stat.h> 
#include <sys/ioctl.h> 
#include <linux/fs,hs 


* get_block 一 一 蔚 与 特定 fg 相关 联 的 文件 返回 
* 映射 至 Logical_block 的 物理 块 





A 
int get_block (Int fd, int logical block) 
{ 
lnt ret; 
ret = ioctl] (fd, FIBMAP, &logical_ block):; 
If {ret < 0) 1 
Berror ("ioct1"}): 
return -1: 
} 
return logical. block: 
} 
A 
* get_nr_blocks 返回 与 £9 相关 联 的 文件 所 耗 用 的 逻辑 块 的 数目 
村 
int get_nr blocks {int fd) 
{ 


struct stat buf: 
int rety 


ret = tstat (fd, gbuf): 
if fret < OY 1 
perror ("fstat"); 
returrn -1; 


} 


return buf.st blocks:; 
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A 
* print_blocks 村 与 fd 相关 联 的 文件 所 耗 用 的 每 个 逻辑 块 
* 在 标 维 输出 中 输出 如 下 信息 : 
* "(logical block, physical block})" 
wi 
voiqd print_blocks (int fd) 
{ 





int nr_blocks, i; 


nr_blocks = get_nr_ blocks (fd):; 
if tnr_ blocks < 0) { 
fprintf (stderr, "get_nr _ blocks failed!‘\n"}; 


return; 


if {nr_blocks == 0} 1 
printf ("no allocated blocks\n"}.; 
return; 
} else if (nr_blocks == 1) 
printf 1"*1 block\n‘\n'"): 
全 吕 伍 
printf ("%d blocks\n\n", nr_blocks):; 


for {i = 0; i < nr blocks: i++h 1 
int phys_ block; 


phys_block = get block {fd, 1}:; 

if tphys_block < 0} 1 
fprintf (stderr, "get_block failed!\n"}):; 
return; 


} 
if (tiphys_ block)} 
contijinue:; 


printf ({"i{%bSu, $$u) ", i, phys_block}:; 


putchar (人 ”An” }); 


int main (int argcec, char *argv[]) 


{ 
int fd: 


if {argc < 2}) 1 
fprintf (stderr, "usage: %8 <file>“n", argv [0]}): 
return 工 ; 


fd = open (argv[1], OO _ RDONLY):; 
if (fd < 0} { 
Perror ("open"™); 
return 1;. 
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! 
print_ blocks (fd):; 
return 0: 
| 


因为 文件 往往 是 连续 的 ， 所 以 很 难 按照 每 个 逻辑 块 (per-logical-block basis) 来 排序 我 
们 的 LO 请 求 ,比较 有 意 光 的 做 法 是 按照 所 指定 文件 的 溃 一 个 丈 辑 块 的 位 置 来 排序 。 于 
是 就 不 需要 用 到 get_nr_pblocks()， 而 且 我 们 的 应 用 程序 会 根据 ， 


get_block (fd, 0); 





的 返回 值 来 进行 排序 。FIBMAP 有 的 缺点 是 需要 CAP_SYS_RAWIO 的 能 力 也 加 征 
说 ， 需 要 root 特权 。 因 此 ， 不 具有 root 特权 的 应 用 程序 无 法 使 用 这 个 方法 。 此 外 ， 尽 
省 FIBMAP 命令 已 经 标准 化 ， 但 是 它 有 的 实现 则 留 给 文件 系统 自己 来 完成 。 尽 管 一 些 第 
见 的 文件 系统 (例如 ext2 和 ext3) 都 会 支持 它 ， 不 过 一 些 比 较 少 见 的 文件 系统 可 能 不 
支持 它 。 如 果 FIBMAP 未 受 支持 ，ioct1() 调用 将 返回 EINVAL。 


这 个 方法 的 一 个 优点 是 它 会 返回 特定 文件 所 位 于 的 实际 物理 磁盘 块 , 也 就 是 你 实际 想 排 
序 的 东西 。 即 使 你 只 是 根据 一 个 块 的 位 置 来 排序 针对 单一 文件 的 所 有 WO (内 核 的 MO 
调度 程序 是 以 逐 块 的 方式 排序 每 个 请 求 )， 此 方法 仍 非 芝 接近 理想 的 顺序 。 然 而 ， 因 为 
这 个 方法 需要 用 到 root 特权 ， 所 以 对 许多 人 来 说 似乎 有 点 不 切实 际 。 


结束 语 

在 连续 这 三 章 的 课程 中 ， 我 们 触及 了 Linux 中 文件 MO 的 所 有 方面 的 内 容 。 第 二 章 中 ， 
我 们 了 解 了 文件 IO 的 基础 功能 这 实际 上 十 Unix 设计 的 基本 知识 ,以 及 相应 的 系 
统 调用 ， 例 如 read()、write{)、open() 以 及 close()。 第 二 章 中 ， 我 们 探讨 
7 用 户 空间 缓冲 机 制 以 及 相应 的 标准 C 链接 库 的 实现 。 本 章 中 ， 我 们 探讨 了 高 级 UVO 
的 不 同 层面 , 从 功能 较 强 但 也 更 复杂 的 LO 系统 调用 , 到 优化 技术 以 及 把 磁盘 查找 (disk 
seek) 对 性 能 的 影响 纳入 考虑 ，。 





下 面 两 章 我 们 将 探讨 进程 管理 的 议题 : 进程 的 创建 、 销 毁 以 及 管理 。 请 继续 读 下 去 ! 


第 五 章 


进程 管理 





下 如 第 一 章 所 述 , 除了 文件 ， 进 程 (process) 也 是 Unix 系统 中 最 基础 的 抽象 概念 。 因 
为 月 标 码 会 进入 执行 (execution) 的 状态 一 一 活跃 (active)、 活 着 (alive)、 运行 程序 
(running program) ,所 以 进程 不 止 是 汇编 语言 ,它们 由 数据 、 资 源 、 状态 以 及 一 个 虚拟 
化 的 计算 机 组 成 。 


本 竟 中 ， 我 们 将 看 到 进程 的 基本 功能 ， 从 创建 到 终止 。 自 从 最 早期 的 Unix 问世 以 来 ， 
它 的 基本 功能 几乎 就 未 变 过 。 本 章 的 主题 一 一 进程 管理 一 一 便 风 炬 着 历史 悠 信 的 Unix 
原始 设计 的 前 脆性 思维 的 光 访 。Unix 行走 一 条 很 少 人 走 过 的 道路 ， 把 创建 新 进程 的 
步骤 与 加 载 新 二 进 制 映像 的 步骤 分 开 。 尽 管 这 两 项 任务 多 半 是 一 前 一 后 依次 完成 的 , 不 
过 分 开 进 行 之 后 , 这 两 项 任务 的 试验 和 发 展 可 获得 很 大 的 自由 度 。 这 条 很 少 人 走 过 的 道 
路 让: Unix 存活 至 今 ， 尽管 多 数 操作 系统 均 使 用 单一 系统 调用 来 启动 一 个 新 程序 ， 但 是 
Unix 却 需 要 用 到 两 个 :fork 以 及 exec。 在 我 们 说 明 这 两 个 系统 调用 之 前 ， 直 我 们 先 束 
人 研究 进程 本 身 。 


进程 1D 

每 个 进程 都 可 以 被 表示 成 一 个 独一无二 的 标识 符 ， 也 就 是 进程 ID (process 1D， 常 简写 
成 pid)。 在 任何 单一 时 间 点 上 ， 可 以 保证 pid 是 独一无二 的 。 也 就 是 说 ， 尽 管 在 时 间 
tO 上 只 能 有 一 个 进程 有 pid yA 0 (和 如果 所 有 进程 中 有 任何 一 个 进程 具有 此 值 )， 但 是 无 法 
保证 在 时 间 上 1 上 不 会 存在 一 个 不 同 的 进程 具有 pid 770。 然 而 ， 基 本 上 多 数 程序 会 假设 
内 核 不 会 轻易 发 出 相同 的 进程 ID 一 一 这 个 假设 正如 你 稍 后 将 看 到 的 ,相当 安全 ，。 


空闲 进程 (idle process) 一 一 没有 其 他 可 运行 的 进程 时 内 核 会 “运行 ”(run) 此 进程 
一 一 具有 pid 0。 系 统 启动 后 内 核 所 执行 的 第 一 个 进程 称 为 初始 化 进程 {init process)， 
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每 个 进程 由 一 个 用 户 (user) 以 及 一 个 组 (group) 所 拥有 。 此 所 有 权 (ownership) 可 
用 于 控制 资源 的 访问 权限 。 对 内 核 而 言 , 用 户 和 组 只 是 整数 值 。 通过 文件 /eic/passwd 
/etc/group, 这 些 壹 数值 会 被 映射 至 Unix 用 户 熟 熏 的 和 名称 人 类 可 阅读 的 字符 串 )， 

如 root 用 户 以 及 whee! 组 (一般 来 说 ，Linux 内 核对 人 类 可 阅读 的 字符 串 并 不 感 es 
它 仿 好 以 整数 来 识别 对 象 )。 每 个 子 进 程 会 继承 其 父 进程 的 用 户 和 组 的 所 有 权 。 


每 个 进程 也 是 进程 组 (process group) 的 一 部 分 , 进程 组 仅 用 于 表示 该 进程 与 其 他 进程 
的 关系 , 切 勿 与 上 述 的 用 户 /组 的 概念 搞 混 了 。 因 为 具有 同一 父 进 程 的 关系 ， 子 进程 一 
般 会 属于 同 -- 进 程 组 。 此 外 ， 当 shell 启动 一 个 管道 (例如 ， 当 用 户 键 入 ls 1 less) 时 ， 
扩 潍 出所 者 合 仿 均 会 涝 入 相同 的 渤 程 组 涌 计 送 程 组 的 柯 售 你 可 上 路 轻易 侍 诺 信 呈 给 壤 


mw, TE A dE -Oo me TR rr le -下 MR 
jo . 窗 总 相关。 十 进 矢 取 每 信和 意 。 信 计生 的 和 售 麻 四 ， 进 程 组 工作 
pid_t 


纵 型 《定义 于 头 文件 ee hi> 从 程序 设计 的 角 关 ;， .进程 [ 厅 人 被 表示 成 Did t 






未 定 交 在 任何 C 标准 中 居然 而 ， 在 - 中 ) 。 NE C 类 型 与 架构 有 关 ; 而 年 并 
二 个 类 型 定 WW (typedef)】,. innx 上 .1 语 了 朋 党 是 对 - nFE 1 次 信人 蕊 闪 刑 由] 


ot Mm ls ad hs ST FW ee Mom! L ep Ep i EE i ie | 


取得 进程 1D 以 及 父 进 程 1D : 
getpigd{) 系统 调用 用 于 返回 进行 调用 的 进程 (invoking process) 的 进程 ID 


#include <svs/types.hy 
#include <uniestd.h> 


pid t getpid (void); 
getppia() 系统 调用 用 于 返回 进行 调用 的 进程 的 父 进程 的 进程 ID 


#include <sYyeB/types.hy 
#include <uniesetd.h> 


pid 七 getppid (void); 
这 两 个 消 数 都 不 会 返回 错误 信息 。 因 此 ， 很 容易 使 用 : 

printf ("My pid=%d\n", getpid!())}); 

printf ("Parent's Pid=$®d\n", getppid(}}; 
如 何 知 道 pia_t 是 一 个 有 符号 整数 ? 好 问题 ! 答案 很 向 单 ， 就 是 我 们 也 不 知道 。 即 使 
我 们 可 以 很 有 把 担 地 假设 pid_t 在 Linux 之 上 是 一 个 int, 但 是 这 种 猜测 违反 了 使 用 
抽象 类 型 的 目的 并 且 伤 害 了 可 移植 性 。 不 幸 的 是 ， 正 如 C 语言 的 所 有 类 型 定义 ， 并 不 
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存在 一 个 简单 的 方式 可 用 来 输出 piqd_t 的 值 一 一 这 是 抽象 类 型 的 一 部 分 ,而且 在 技 
术 上 需要 一 个 我 们 所 缺少 的 piqd_to_int{() 函数 。 然 而 ， 为 了 pbrintf{) 的 用 途 而 
将 这 些 值 视 为 整数 是 很 常见 的 。 


hm 和 器 
运行 一 个 新 进程 

Unix 中 ,将 一 个 程序 映像 (program image) 加 载 至 内 存 并 加 以 执行 的 步骤 与 创建 一 个 
新 进程 的 步骤 是 分 开 的 。 有 一 个 系统 调用 (实际 上 是 一 系列 调用 中 的 一 个 ) 可 用 于 将 二 
进 制 程序 (binary program) 加 载 至 内 存 ， 取 代 地 址 空间 先前 的 内 容 ， 以 及 开始 新 程序 
的 执行 。 这 称 为 执行 (executing) 一 个 新 程序 ， 而 此 功能 由 exec 系列 调用 (family of 


calls) 提供 。 


另 有 一 个 系统 调用 可 用 于 创建 一 个 新 进程 ,而 这 个 新 进程 最 初 几乎 就 是 其 父 进 程 的 副本 。 
通 当 ,这 个 新 进程 会 立即 执行 一 个 新 程序 。 创建 一 个 新 进程 的 步骤 称 为 派生 (forking)， 
而 此 功能 提供 日 fork() 系统 调用 。 因 此 ， 如 果 要 在 一 个 新 进程 中 执行 一 个 新 的 程序 
映像 ， 则 需要 两 个 步骤 : 首先 进行 派生 步骤 以 创建 一 个 新 进程 , 然后 进行 执行 步骤 以 把 
一 个 新 映射 加 载 至 该 进程 。 下 面 我 们 会 先 说 明 exec 系列 调用 ， 然 后 说 明 fork 1() 。 


exec 系列 调用 
并 不 存单 一 的 exec 国 数 ， 事 实 土 ， 那 是 单一 系统 调用 上 所 建立 的 exec 系列 国 数 。 让 
我 们 先 来 看 看 其 中 最 简单 的 一 个 ，exec11() : 

#include <uniatd.h> 


int execl l(conet char #*path, 
const char *arg, 
i 


通过 将 path 参数 所 指 阿 的 程序 加 载 至 肉 存 ，execl() 可 以 把 当前 进程 的 映像 替换 成 
新 的 映像 。arg 参数 是 该 程序 的 第 一 个 参数 ， 而 省 酷 号 (.…) 用 来 表示 数目 不 定 的 参数 
execli1{) 是 一 个 variadic (参数 数目 不 定 的 ) 函数 ， 这 意味 着 后 面 有 可 能 会 跟着 
额外 的 参数 ， -个 接着 一 个 。 此 参数 列表 必须 以 NULE 结束 。 
例如 ， 下 面 的 程序 代码 会 以 [ii 取代 当前 所 执行 的 程序 . 
int ret:; 


ret = execl ("hin/vi, "vi", NULL): 
1f tret == -1) 
Perror ("execl"); 


注意 , 按照 Unix 的 惯例 , 我 们 会 以 “vi” 作 为 程序 的 第 一 个 参数 。 当 shell 派生 /执行 

(forks/execs) 进程 时 ,会 以 路 径 的 最 后 一 个 元 素 “vi” 作 为 第 一 个 参数 ,所 以 一 个 程序 

可 以 检查 它 的 第 一 个 参数 argv [0], 以 便 找 出 它 的 二 进 制 映像 的 名 称 。 在 许多 情况 下 ， 

尽管 用 户 所 看 到 的 是 名 称 不 同 的 系统 实用 程序 ,但 它们 其 实 是 将 单一 程序 硬 链接 至 不 同 

名 称 的 结果 。 该 程序 可 以 使 用 第 一 个 参数 来 决定 上 自己 的 行为 。 

再 举 一 个 例子 ,如 果 你 想 要 编辑 文件 home/kidd/hooks.txt, 你 可 以 执行 如 下 的 程序 代码 : 
int ret; 


ret = execl ("BinA/vi", vi, /home/kidd/hooks.txt", NULL}: 
if 《ret == -1) 
Perror ("execl"); 


正 稍 情况 下 ，execl1() 不 会 返回 。 执 行 成 功 时 ，execll) 会 以 跳跃 至 新 程序 的 人 口 

点 作为 结束 ,而 刚才 所 执行 的 程序 代码 会 从 进程 的 地 址 空间 中 消失 。 然而 , 发 生 错 误 时 ， 

execl() 会 返回 -1 并 且 设 十 errno 以 指出 所 发 生 的 问题 。 稍 后 我 们 会 看 到 可 设 

定 哪 些 值 errne 。 

一 次 成 功 的 exec1( 调用 不 仅 会 改变 地 址 空间 和 进程 映像 ,也 会 改变 进程 的 某 些 属性 ， 

. 任何 未 决 情 号 会 道 失 。 

. 进程 所 捕捉 到 的 任何 信号 4 参见 第 九重 ) 会 回 到 它们 的 默认 行为 , 因为 它们 的 信号 
处 理 程序 已 消失 于 进程 的 地 址 空间 中 。 

. 内 存 的 任何 锁定 (参见 第 八 章 ) 会 被 往 弃 。 

. 多 数 线 程 属性 会 回 到 它们 的 默认 值 。 

* 多数 进程 统计 数据 会 被 重 置 。 

. 与 进程 的 肉 存 有 关 的 任何 东西 ， 包 播 所 映射 的 任何 文件 ， 会 被 琅 弃 。 

. 单独 存在 于 用户 空间 的 任何 东西 ， 包 括 C 链接 库 的 功能 ， 例 如 atexit 1() 的 行 
为 ， 会 被 丢弃 。 

然而 ， 进 程 的 许多 特性 并 不 会 改变 。 人 例如， 进程 ID、 父 进程 ID 、 优 先 级 以 及 具 所 有 权 

的 用 户 和 组 部 维持 不 变 。 

一 般 情 况 下 ， 已 打开 的 文件 可 以 跨 exec 被 继承 。 这 意味 着 新 执行 的 程序 可 以 全 面 访问 

原 进程 中 已 打开 的 所 有 文件 , 假设 它 知 道 相应 的 交 件 描述 符 的 值 .然而 , 这 通常 不 是 期 

刻 的 行为 。 通 前 的 做 法 是 在 进行 exec 之 前 先 关 闭 文件 ， 尽 管 也 能 通过 fcnt11) 指示 

内 核 自 动 完 成 此 事 。 


注 
出 
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除了 sxecl1)，exec 系列 调用 还 有 其 他 五 个 成 员 : 


#include <unistd.h> 


int execlp (Gonet char *file, 
const char *arg, 
ujs 


int execle (const char *path, 
Sonst char *arg, 


强 于 


char * const envp[]); 
int execv (conat char *path, char *conest argv[I]): 
int execvp (const char *file, char *conet argwv[]): 


int execve (const char *filename, 

har *const argv{[], 

aiiar *const envp[])}); 
此 处 所 用 到 的 助 记 符 很 简单 。1 和 wv 用 于 界定 参数 是 提供 自 一 个 列表 (iist) 还 是 一 个 
数组 (vector)。 而 p 表示 用 户 的 完整 路 径 (path) 可 用 于 搜索 指定 的 文件 。 使 用 P 助 
记 符 骨 示 的 调用 时 可 以 只 指定 文件 名 ,只 要 该 文件 就 位 于 用 户 的 路 径 中 。 最 后 ，e 表示 新 
的 进程 还 提供 了 一 个 新 的 环境 ,奇怪 的 是 ,尽管 不 是 为 了 技术 上 的 理由 而 要 刻意 遗漏, exec 
系列 调用 中 并 没有 任何 成 员 会 同时 搜索 路 径 并 取得 一 个 新 的 坏 境 。 这 或 许 古 因为 ,Pp 助 记 
往 表 示 的 调用 是 给 shell 使 用 的 ， 而 shell 所 执行 的 进程 通常 会 从 shell 继承 它们 的 环境 。 


在 exec 系列 调用 中 ， 使 用 数组 的 成 员 与 使 用 列表 的 成 员 并 设 有 什么 不 同 ， 差 别 只 是 前 
者 所 传 入 的 是 一 个 数组 , 而 后 者 所 传人 的 是 一 个 列表 。 数 组 的 使 用 让 参数 可 以 等 到 运行 
叶 再 决定 。 如 同 长 度 不 定 的 参数 列表 ， 数 组 必须 以 NULL 作为 结束 。 


如 同 我 们 先前 所 举 的 例子 ， 下 面 的 程序 代码 片段 会 以 execvp() 来 执行 vi: 


const char *args{ll = { "vi", /home/kidd/hooks.,txt", NULL 1}; 
nt ret; 

ret EXECVD ("vi", args).; 

if iret == 一 


Derror ("eXecCVO"),; 
假设 Wbin 位 于 用 户 的 路 径 中 ， 则 这 个 例子 的 运作 方式 类 似 于 前 一 个 例子 。 


Linux 中 ，exec 系列 调用 中 只 有 一 个 成 员 是 系统 调用 ， 其 余 成 员 则 是 C 链接 库 所 提供 
的 系统 调用 包 吉 国 数 。 因 为 variadic (参数 数目 不 定 的 ) 系统 调用 难以 实现 ， 而 且 因 为 
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用 户 路 第 的 概念 仅 存在 于 用 户 空间 , 所 以 这 个 唯一 的 系统 调用 就 是 execveltl。 这 个 条 
统 调用 的 原型 与 用 户 调 用 一 致 。 


错误 值 
执行 成 功 时 ，exec 系列 调用 不 会 返回 ; 执行 失败 时 ， 它 们 会 返回 -1 开 有 将 errro 肥 
定 成 下 面 的 其 中 一 个 值 ， 


E2BIG 
参数 列表 (arg) 或 环境 (envp) 的 字 市 总 数 太 大 。 
EACCESS 


进程 无 权 搜索 path 的 组 成 元 素 ; path 不 是 :一 个 常规 文件 ; 日 标 文 件 未 被 标记 
成 可 执行 path 或 file 位 于 以 noexec 挂 载 的 文件 系统 上 。 


EFAULT 
使 用 了 无 效 的 指针 。 
EIO 


发 生 了 低级 UO 错误 (这 是 相当 精 粒 的 情况 )。 


正 工 与 口上 只 

path 的 最 终 元 素 (final component) 或 解释 器 【interpreter) 是 -一 个 上 日 法。 
ELOOP 

解析 Patrn 时 系统 过 到 太 多 符号 链接 。 
EMFTILE 

进行 调用 的 进程 所 打开 的 文件 数目 已 到 述 它 的 上 限 ，。 
ENFILE 

所 打开 的 文件 数目 已 到 达 系 统 范围 的 上 限 。 
ENOENT 

path 或 file 的 目标 文件 不 存在 ， 或 者 所 需要 的 共享 链接 库 不 存在 。 
ENOQEXEC 

patn 或 file 的 目标 文件 是 一 个 无 效 的 二 进 制 文件 或 是 用 于 不 同 的 机 器 架构 。 
ENOMEM 

内 核 内 存 不 足以 执行 一 个 新 的 程序 。 
ENOTDIR 


path 中 有 一 个 非 最 终 元 素 (nonfinal component ) 不 是 目录 。 


光 
直 
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EPERM 
path 或 file 位 于 以 nosuia 挂 载 的 文件 系统 上 ,但 用 户 不 是 root, 和 而且 path 
或 file 设 定 了 suid 或 sgid 位 。 

ETXTBSY 
path 或 file 的 目标 文件 被 另 一 个 进程 打开 以 备 写 人 (open for writing)。 


fork() 系统 调用 
一 个 进程 可 以 通过 fork() 系统 调用 创建 一 个 新 的 进程 来 运行 与 当前 相同 的 映像 : 


#include <ays/typea.h> 
#include <unistd.h> 


pid t fork (void):; 
一 次 成 功 的 fork () 调用 会 创建 一 个 新 进程 ， 此 进程 的 各 方面 与 进行 调用 的 进程 几 平 
一 致 。 这 两 个 进程 会 继续 运行 ， 而且 fork1{) 会 返回 ， 好 像 什 么 事 都 没 发 生 一 样 。 
新 的 进程 称 为 原 进程 的 子 进 程 (child), 而 原 进程 则 称 为 父 进程 (parent)。 在 子 进程 中 ， 
成 功 的 fork {) 调用 会 返回 0; 在 父 进 程 中 ，fork() 会 返回 子 进程 的 pid。 了 于 进程 
的 各 方面 和 父 进 程 几乎 一 和 臻 ， 除 了 了 : 
子 进程 的 pid 与 父 进程 的 不 同 。 
。 子 进程 的 parent pid 会 被 设 定 成 其 父 进程 的 pid。 
. 子 进程 中 的 资源 统计 数据 会 被 重 置 为 零 。 
。 任何 未 决 信和 号 会 被 清除 ， 而且 不 会 被 子 进程 继承 【参见 第 九 章 )。 
。 ”所 取得 的 任何 文件 锁定 不 会 被 子 进程 继承 。 
发 后 错误 时 ， 子 进程 不 会 被 创建 ，fork1() 会 返回 -1 并 且 将 errno 议定 成 通 当 的 
值 。errno 的 可 能 值 有 两 个 ， 但 是 有 具有 三 种 可 能 的 意义 : 
EAGAIN 
内 核 无 法 分 配 某 些 资源 ， 例 如 一 个 新 的 pia， 或 者 已 到 达 RLIMIT_NPROC 资源 
限制 (resource limit， 常 简写 为 rlimit， 参 见 第 六 章 )。 
ENCOMEM 
内 核 内 存 不 足以 完成 此 请 求 。 
它 的 用 法 很 简单 : 
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Pld tt pid; 


Pi = fork (): 
if (pid > 0) 
printi 1°"I am the parent of pld=$%d'‘\n", pid!}: 
else i1f {!p1d) 
Printf ("I am the baby!“\n").; 
else 1if (pid == -1} 
Perror ("fork"); 


fork() 的 最 第 见 用 法 就 是 创建 一 个 新 的 进程 ， 然 后 将 一 个 新 的 二 进 制 映 像 加 载 进来 
你 可 以 将 此 想 成 是 一 个 shell 为 用 户 运 行 一 个 新 的 程序 , 或 者 是 一 个 进程 产生 了 一 
个 辅助 程序 。 首 先进 程 会 派生 一 个 新 的 进程 ， 然 后 子 进程 会 执行 一 个 新 的 二 进 制 映像 。 
这 个 “fork 加 上 exec” 的 组 合 既 常见 又 简单 。 下 面 的 例子 会 派生 一 个 新 的 进程 以 执行 
一 进 制 文件 /Bin/windlass ， 





pid t pigd; 


pid = fork 【) ; 
It lpid == -1} 
Berror ("fork"y: 


六 于 进程 ， i wy 
if {ipiqd) 1 
const char *args[] = { "windlass", NULL }:; 
int ret; 
ret = execyv ("/bin/windlass", args}; 
if {ret == =-1) 1 


Perror ("exXecv"):; 
exit (EXIT FAILURE):; 


} 


父 进 程 会 继续 运行 并 没有 改变 , 除 此 之 外 它 现在 还 有 一 个 新 的 子 进程 。 调用 execv () 
之 后 会 变 成 子 进程 运行 /bin/windiass 程序 。 


写 入 时 才 复 制 

在 早期 的 Unix 系统 中 ， 进 程 的 派生 很 简单 。Eork () 被 调用 时 ， 内 核 会 奉 内 部 的 所 有 
数据 结构 创建 副本 ， 复 制 进程 的 页 表 (page table) 项 ， 以 及 将 父 进程 的 地 址 空间 逐 页 
复制 (page-by-page copy) 到 子 进程 的 新 地 址 空间 , 但 是 这 种 逐 页 复制 的 做 法 挺 费 时 的 
(至少 以 内 核 的 立场 来 看 )。 


现代 Unix 系统 的 表现 较 理 想 。 现代 的 Unix 系统 ， 例 如 Linux, :不 再 整 批复 制 父 进程 
的 地 址 空间 ， 而 是 采用 写 信 时 才 复 制 (copy-on-write ， 常 简写 成 COW)】 页 面 。 
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写 入 时 才 复 制 是 一 种 延迟 优化 策略 ， 目 的 是 减轻 复制 资源 的 开销 。 它 的 前 提 很 简单 : 如 
条 同一 个 资源 有 许多 消费 者 《consumer) 要 读 取 它们 自己 的 副本 , 则 不 需要 复制 该 资源 
的 副本 。 事 实 上 , 每 个 消费 者 会 得 到 -个 指向 相同 资源 的 指针 。 只 要 没有 消费 者 企图 修 
政 届 于 自己 的 副本 ， 则 排他 访问 (exclusive access) 的 假象 依然 存在 ， 而 且 可 以 避免 复 
制 副 本 的 开销 。 如 果 有 一 个 消费 者 企图 修改 属于 自己 的 副本 , 则 在 此 情况 下 , 会 目 动 复 
制 该 资源 的 副本 , 而 且 此 副本 会 被 提供 给 进行 修改 的 消费 者 。 消费 者 的 能 力 不 足 以 在 其 
他 消费 者 仍 在 共享 原本 未 修改 资源 的 同时 修改 属于 自己 的 副本 。 因此 才 会 出 现 “ 写 入 时 
才 和 复制 ”的 策 暗 。 


此 策略 的 主要 好 处 是 ,如果 没 有 消费 者 企图 修改 属于 目 己 采 副 本 ， 则 不 需要 建立 任何 副 
在。 延迟 算法 (lazy algorithm) 的 一 般 好 处 一 一 将 代价 昂贵 的 动作 推 延 到 最 后 一 刻 进 
行 一 一 也 适用 此 说 法 。 


在 虚拟 肉 存 的 特例 中 , 写 人 时 才 复 制 的 实现 是 以 每 一 页 (per-page) 为 基础 的 。 因 此 ， 

旨 进 程 没有 修改 它 所 有 的 地 址 空间 ， 则 整个 地 址 空间 就 不 需要 副本 。fork (派生 ) 动作 
完成 之 后 , 父 进程 和 子 进 程 会 认为 它们 自己 拥有 唯一 的 地 址 空间 , 然而 事实 上 人 
守 父 进程 的 原始 页 面 一 一 也 可 能 被 其 他 的 父 进 程 或 子 进程 等 所 共 至 1 


内 核 的 实现 方式 很 简单 。 在 内 核 的 页 面相 关 数 据 结构 中 , 页 面 会 被 标注 成 read-only ( 仪 
供 读 取 ) 以 及 copy-on-write ( 写 入 时 才 复 制 )。 如 果 进 程 企 图 修改 一 个 页 面 或 是 发 生 了 
页 而 失误 ， 则 内 核 会 通过 自动 复制 页 面 的 副本 来 处 理 页 面 失 误 。 在 此 情况 下 ， 页 和 面 的 
copy-on-write 属性 会 被 清除 ， 而 且 页 面 不 再 提供 共享 。 


时 为 现代 机 器 贺 构 在 它们 的 内 存 管 理 单元 (memory management unit， 常 简写 成 
MMU) 中 为 “ 写 和 时 才 复制 ”策略 提供 了 硬件 层 的 支持 ， 所 以 实现 起 来 既 简单 又 容 


2 


进行 fork 动作 时 ,“ 写 入 财 才 复制 ”的 好 处 更 多 。 因 为 进行 fork 动作 之 后 ， 有 很 大 的 
比例 会 立即 进行 exec 动作 ， 所 以 将 父 进程 的 地 址 空间 复制 到 子 进程 的 地 址 空间 通 前 完 
全 是 在 浪费 时 间 ; 如 果子 进程 立即 执行 了 一 个 新 的 二 进 制 映像 , 它 先 前 的 地 址 空间 就 会 
被 抹 除 。 在 此 情况 下 便 可 使 用 “ 写 入 时 才 复 制 ” 优 化 策略 。 


vfork() 

在 写 入 时 才 复 制 页 面 的 策略 出 现 之 前 ，Unix 设计 者 所 关注 的 是 ， 如 果 后 面 会 立即 进行 
exec 动作 ，fork 动作 期 间 浪 费时 间 的 地 址 空间 复制 。 因 此 ，BSD 开发 者 在 3.0BSD 中 
公开 vfork() 系统 凋 用 ， 
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#include <ByYa/typPes.h> 
#include <unistd.h> 


pid t vfork (voild); 


一 次 成 功 的 vfork() 调用 具有 距 fork () 一 样 的 行为 ,但 是 子 进程 必须 了 并 即 发 出 一 
个 成 功 的 exec 调用 或 是 调用 _exit()( 下 一 节 会 讨论 ) 以 便 结 束 执 行 。viork{) 测 
用 会 通过 暂停 父 进 程 直到 子 进程 终 止 或 者 执行 一 个 新 的 二 进 制 映像 的 方式 来 散 侈 地 址 空 
间 和 页 表 的 复制 。 在 过 流 期 间 ， 父 进程 和 子 进程 共享 (但 是 不 使 用 写 入 时 才 复 制 沁 上 星 ) 
它们 的 地 址 空间 和 页 表 项 。 事实 上 , vfork() 执行 期 间 只 会 复制 内 校内 部 的 数据 结构 。 
因此 ， 子 进程 不 得 修改 地 址 空间 中 任何 内 存 的 内 容 。 


vfork{) 系统 调用 是 一 个 历史 遗迹 ， 从 来 就 不 应 该 在 Linux 上 实现 ， 但 是 必须 指出 的 
是 ， 就 算 使 用 写 人 时 才 复 制 策略 ，vfork() 的 速度 仍然 比 forfKk() 快 ， 因 为 不 需要 
复制 页 表 项 ( 注 1) 。 尽 管 如 此 ， 写 人 时 才 复 制 页 面 策略 的 出 现 ， 削 弱 了 为 fork () 提 
供 赫 换 方案 的 任何 论据 。 的 确 ， 直 到 2.2.0 版 的 Linux 内 核 ，vfork() 仍旧 只 是 一 个 
内 含 fork () 的 包 正 函数 。 由 于 对 vtfork() 的 需求 弱 于 对 fork{) 的 需求 ， 所 以 这 
种 Vfork() 的 实现 是 可 行 的 。 


严格 来 说 ， 所 有 的 viork() 实现 几乎 都 有 刺 症 : 考虑 exec 调用 失败 的 情况 ! 在 此 情 
况 下 ， 父 进程 将 无 限期 暂停 ， 除 非 子 进程 想 通 了 该 怎么 办 或 者 直到 子 进程 结束 执行 。 


终止 一 个 进程 
POSIX 和 C89 定义 了 一 个 标准 国 数 用 于 终止 当前 进程 : 

#include <stdlib.h> 

void exit (int status)s 
exit {) 调用 会 执行 一 些 基本 的 shutdown (关闭 ) 步 又 ， 然 后 指示 内 核 终止 进程 。 此 
函数 无 法 返回 错误 一 一 事实 上 , 它 绝 不 会 返回 任何 值 , 因此 , 任何 指令 在 中 在 exit1() 
调用 之 后 ， 则 不 会 有 任何 作用 。 
其 中 ，status 参数 用 于 表示 进程 的 结束 状态 。 其 他 的 程序 (以 及 shell 上 的 用 户 ) 可 
以 检查 此 值 。 特 殊 的 是 ，status & 0377 会 被 返回 给 父 进程 。 本 章 稍 后 会 查看 此 返 
回 值 。 
注 ] 尽管 目前 不 是 2.6 版 Li 内 核 的 一 部 分 ， 不 过 休 可 以 在 Linux Kernel Mailing List 


(likml) 上 看 到 一 个 用 于 实现 写 入 时 才 复 制 共 享 页 表 项 的 补丁 文件 (patch)。 使 用 
vfork() 时 ， 对 内 核 加 入 此 补丁 不 会 有 任何 好 处 。 
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EXIT_SUCCESS 与 EXIT_FAILURE 被 定义 成 可 移植 的 方式 来 表示 成 功 和 失败 的 状态 。 
在 Linux 上 ，0 通常 表示 成 功 ， 非 零 值 ， 例 如 1 或 -1， 则 表示 失败 。 
因此 ， 要 表示 成 功 的 结束 ， 就 这 么 倍 单 : 
exit (EXIT SUCCESS): 
终止 进程 之 前 ，C 链接 库 会 依次 执行 下 面 的 shutdown 步骤 : 
1. ”按照 与 注册 相反 的 顺序 调用 以 atexit(}) 或 on_exit(} 注册 的 任何 函数 (本 章 
稍 后 会 讨论 这 些 函 数 )。 
2. 刷新 (flush) 所 有 已 打开 的 标准 MO 流 (参见 第 三 童 )。 
3. 称 除 任何 由 tmpfile() 图 数 所 创建 的 临时 文件 。 
这 些 步 果 完 成 了 进程 在 用 户 空 间 中 所 需 进行 的 所 有 工作 ， 接 着 exit() 会 调用 系统 调 
用 _exit ()， 让 内 核 可 以 处 理 终 止 进 程 的 其 作 工 作 : 
#incelude unigstd.h> 
voiqd exit tjint status}), 
当 一 个 进程 退出 时 , 内 核 会 清理 它 为 进程 创建 的 所 有 资源 中 不 再 使 用 的 部 分 。 这 包括 但 
不 仅 限 于 已 分 配 的 肉 存 、 已 打开 的 文件 以 及 System Y semaphores。 完 成 清理 工作 后 ， 
内 棱 会 销毁 进程 并 通知 父 进程 其 子 进 程 已 死亡 的 事实 。 
应 用 程序 可 以 直接 调用 _exit(), 但 是 此 类 行为 通常 没有 任何 意义 :; 多 数 应 用 程序 需 
竖 进 行 由 完全 结束 所 提供 的 某 个 清理 工作 ， 例 如 出 新 stdout 流 。 然 而 请 和 注意， 派生 动 
作 之 后 ，vfork() 的 用 户 应 读 调 用 _exit () 而 不 是 调用 exit()。 


记忆 
ISO C99 标准 中 加 和 人 了 _Exitt}) 函数 ， 它 的 行为 如 间 _exit1)， 
UY, | 
| #include <stdlib.h> 


VOoid Exit (jint status); 


终止 进程 的 其 他 方式 


结束 一 个 程序 的 典型 方式 并 非 通 过 显 式 的 系统 调用 ， 而 是 从 程序 的 结尾 离开 。 就 C 语 
言 的 情况 来 说 ， 这 发 生 在 从 main{) 函数 返回 时 。 然 而 ， 这 种 从 结尾 离开 (falling off 
the end ) 的 做 法 仍 会 调用 一 个 系统 调用 : 编译 器 会 在 自己 的 shutdown code (关闭 程序 
代码 ) 之 后 自动 插入 一 个 _exit(}。 经 由 exit() 或 从 main1) 返回 值 ， 显 式 返 回 
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结束 状态 是 一 个 好 习惯 。shell 可 以 使 用 此 结束 值 来 判断 命令 的 执行 是 成 功 还 是 失败 。 注 
音 ， 执 行 成 功 时 会 使 用 exit (0), 或 由 main{) 返回 0 值 。 

一 个 进程 也 可 以 被 一 个 信号 终 止 ， 如 果 访 信号 的 默认 行为 是 终止 进程 。 此 类 信号 包括 
SIGTERM 和 SIGKILL (参见 第 九 章 )。 

结束 一 个 程序 的 执行 最 后 一 个 方式 是 被 内 核 “ 杀 掉 ”。 内 核 可 以 在 进程 执行 了 非法 指令 、 
造成 了 分 段 违例 (segmentation riolation)、 用 完 内 存 等 时 候 “ 杀 掉 ”(kill) 它 。 


atexit() 
POSIX 1003.1-2001 所 定义 以 及 Linux 所 实现 的 atexit() 链接 库 调用 ， 可 用 于 注册 
干 进程 终止 时 所 调用 的 函数 : 

nSGluide <etdalib.h> 

int atexit (void {*functiony) (void)); 

-次 成 功 的 atexit () 调用 会 注册 指定 的 国 数 ， 从 而 在 正 尘 进程 终止 期 间 得 以 运行 ， 
也 就 是 说 , 经 exit () 或 从 main() 返回 来 终止 一 个 进程 。 如 果 进 程 调用 了 一 个 exec 
函数 ， 则 已 注册 国 数列 表 会 被 请 除 (因为 这 些 图 数 已 经 不 在 新 进程 的 地 址 空间 中 ) 。 如 
果 一 个 进程 通过 信号 终止 ， 则 不 会 调用 所 注册 的 国 数 。 

此 处 所 指定 的 函数 不 需要 参数 也 没 有 返回 值 。 它 的 原型 具有 如 下 的 形式 : 

void myY_function Wwold): 
这 些 国 数 的 调用 顺序 与 注册 的 顺序 相反 ， 也 就 是 说 ， 这 些 国 数 会 被 存放 在 一 个 堆栈 里 ， 
而 且 以 后 进 先 出 【LIFO) 的 顺序 被 取出 。 所 注册 的 函数 不 得 调用 exit()， 否 则 它们 
会 不 断 地 被 递归 。 如 果 一 个 函数 需要 早 一 点 终止 进程 ， 它 应 该 调用 _exit ()。 然 而 我 
们 不 建议 这 么 做 ， 因 为 这 样 可 能 会 有 重要 的 函数 没有 被 执行 到 。 
POSIX 标准 规定 atexit () 至 少 要 支持 ATEXIT_MAX 个 注册 函数 ， 此 值 必 须 至 少 是 
32 ， 实 际 的 最 大 值 可 经 sysconf() 与 _SC_ATEXIT MAX 参数 值 来 取得 : 

long atexit max; 


atexit max = syesconf {_ScC ATEXIT MAX); 
Printf {"atexit_max=$16\n", atcexit_ maxl): 


执行 成 功 上 时 ，atexit() 会 返回 0， 发 生 错 民 时 ， 它 会 返回 -1。 
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下 面 是 一 个 疝 单 的 例子: 


#ijnclude <stdio.h> 
#include <stdlib.hs 


VOID cut (void) 
{ 
printf {"atexit{(} succeeded!\n*")}); 
! 
int main {void) 
| 
if tatexit {out)}) 


fprintfistderr, "atexit{} failed!‘\n"); 


return 0; 


on_exit() 
SunOS 4 自己 定义 了 与 atexit 1() 等 效 的 国 数 , 而且 Linux 的 glibe 也 支持 这 个 国 数 : 
#include <stdlib.h> 


int on exit {voiqd (*function) (int , void *), void *arg); 


此 函数 的 工作 方式 如 同 atexit ()， 但 是 所 注册 函数 的 原型 有 所 不 同 : 

voOId my_function (int status, Vvold *arg); 
status 参数 值 会 传递 给 exit () 或 是 从 main() 返回 。arg 参数 是 第 二 个 参数 ， 会 
传递 给 on_exit ()。 要 注意 的 是 ， 当 国 数 最 后 被 调用 时 ， 必 须 确 保 arg 所 指向 的 内 
存 是 有 效 的 。 


Solaris 的 最 新 版 本 不 再 支持 此 函数 。 你 应 该 改 用 与 标准 兼容 的 atexit () 函数 。 


SIGCHLD 

当 一 个 进程 终止 时 ， 内 核 会 传送 SIGCHLD 信号 给 它 的 父 进程 。 默 认 情 况 下 , 此 信号 会 
被 忽略 , 父 进程 因此 不 会 采取 任何 行动 。 然 而 , 进程 可 经 signal() 或 sigaction() 
系统 调用 选择 处 理 此 信号 。 这 两 个 信号 以 及 其 余 的 信号 会 在 第 九 章 加 以 说 明 。 


SIGCHLD 信号 随时 都 可 以 被 产生 和 派送 ， 因 为 子 进程 的 终止 与 它 的 父 进 程 之 间 是 不 同 
步 的 。 但 是 很 多 时 候 ， 父 进程 会 想 多 了 解 有 关 其 子 进程 终止 的 事情 ， 甚 至 会 显 式 等 待 此 
事件 的 发 生 。 在 此 情况 下 ， 可 以 使 用 下 一 节 所 讨论 的 系统 调用 。 
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rr bb, 加 
等 待 已 终止 的 子 进程 
通过 信 生 收 到 通知 并 没有 什么 不 好 ， 但 是 许多 父 进 程 在 它们 的 其 中 一 个 子 进程 终止 时 ， 
和 2 想 取 得 更 多 信息 一 例如 ， 子 进程 的 返回 值 。 


若 一 个 子 进 程 在 终止 时 整体 消失 , 则 正如 预期 的 那样 ， 父 进程 将 无 法 取 回 任何 信息 。 因 
此 ，Unix 的 原 设 计 者 决定 ， 若 子 进程 的 死亡 时 间 先 于 它 的 父 进程 ， 则 内 核 应 读 让 于 进 
程 进入 一 个 特殊 的 进程 状态 。 进 入 此 和 状态 的 进程 名 为 僵尸 进程 (zompie ) 。 一 旦 进程 进入 
此 状态 , 则 只 会 保留 最 小 的 上 骨架: 一些 可 能 会 包含 有 用 数据 的 基本 内 核 数据 结构 。 一 个 
处 于 此 状态 的 进程 会 等 待 它 的 父 进程 来 打听 它 的 状态 (此 过 程 名 为 等 待 僵尸 进程 )。 只 
有 在 父 进程 取得 所 保留 的 关于 已 终止 子 进程 的 信息 时 ,进程 才 会 正式 结束 并 且 不 再 存在 ， 
即使 是 一 个 僵尸 进程 。 

Linux 内 核 提供 了 若干 接口 用 于 取得 关于 已 终止 子 进程 的 信息 。 这些 接口 中 最 简单 的 就 
是 POSIX 所 定义 的 wait (); 


#include <egys/types.h> 
#include <gyea/wait.hy> 


pid t wait (int *gstatus); 
调用 wait () 会 返回 一 个 已 终止 子 进程 的 pia ， 发生 错误 时 会 返回 -1。 如 来 没有 于 
进程 被 终止 ， 则 此 调用 会 受到 阻挡 ， 直 到 有 子 进程 被 终止 。 如 果 有 进程 已 经 被 终止 ， 则 
此 调用 会 立即 返回 。 因 此, 调用 wait () 会 响应 一 个 子 进程 的 死亡 消息 一 一 例如 收 到 
一 个 SIGCHLD 信号 ， 所 以 总 是 会 返回 而 不 会 受到 阻挡 。 


发 生 错 误 时 ，erzno 会 有 两 个 可 能 值 ， 


ECHILD 
calling process 【进行 调用 的 进程 ) 并 不 具有 任何 子 进程 。 
ELNTR 


等 待 的 时 候 收 到 了 一 个 信号 ， 让 此 调用 提前 退回。 
如 果 不 是 NULL 值 ， 则 status 指针 会 包含 关于 子 进程 的 额外 信息 。 因 为 POSIX 允许 实 
现在 status 中 定义 它们 认为 合适 的 位 ， 所 以 标准 提供 了 一 系列 宕 作为 解析 参数 之 用 : 
#include <eavya/vwait.h> 


int WIFEXITED (satatus); 
int WIFSIGNALED (status):; 
int WIFSTOPPED (statugs)});} 
int WIFCONTINUED (gtatus); 
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int WEXITSTATUS (astatus)} 
int WIERMSIG (status); 
int WaTOPSIG (statusy: 
int WCOREDUMP ‘(atatus)} 


前 两 个 宏 的 其 中 一 个 可 能 会 返回 真 值 ( 非 零 值 )， 这 取决 于 进程 被 终止 的 方式 。 如 果 进 
程 是 正常 终止 ， 则 第 一 个 宏 WIFEXITED 会 返回 真 值 一 一 也 就 是 说 ， 如 困 进 程 调 用 了 
_exit ({) 。 在 此 情况 下 ， 宏 WEXITSTATUS 会 提供 传递 给 _exit() 的 低 8 位 。 


如 果 是 信号 导致 进程 的 终止 (第 九 章 会 对 信号 做 更 进一步 的 讨论 )，WIFSIGNALED 会 
返回 真 值 。 在 此 情况 下 , WTERMSIG 会 返回 导致 进程 终止 的 信号 数目 , 而 且 如 果 进 程 以 
core dump 来 响应 所 收 到 的 信号 ， 则 WCOREDUMP 会 返回 真 值 。POSIX 并 未 定义 
WCOREDUMP， 尽 管 有 许多 Unix 系统 (包括 Linux) 支持 它 。 


如 果 进 程 被 停止 或 继续 ， 则 WIFSTOPPED 和 WIFCONTINUED 会 分 别 返 回 真 值 ， 而 且 
可 通过 ptrace() 系 统 调用 追踪 当前 的 状态 。 这 些 状 态 一 般 只 能 应 用 在 实现 调试 程序 
(debugger) 的 时 候 ， 虽 然 与 waitpid()( 稍 后 会 加 以 说 明 ) 一 起 使 用 的 时 候 ， 它 们 
还 可 以 用 于 实现 作业 控制 (job control) 。 一 般 而 言 ， wait() 只 用 于 沟通 关于 进程 终 
止 的 信息 。 如 果 WIFSTOPPED 为 真 ，WSTOPSIG 会 提供 导致 进程 中 止 的 信号 数目 。 
POSIX 并 未 定 父 WIFCONTINUED, 虽然 未 来 的 标准 会 圭 waitpigd() 定 又 此 安 。 从 
2.6.10 版 Linux 内 核 起 ，Linux 也 开始 为 wait () 定义 此 宏 。 


下 面 的 范例 程序 会 使 用 wait () 来 判断 它 的 子 进程 发 生 了 什么 事 : 


#include <unistgd.h»> 
4#incelude <stdio.h»> 
tinclude <SyS/tYDeSs. hy> 
#inclilude <sya/wait.hs 


int main {volid) 


int status: 
Bid t pld; 


if (ifork (}}) 
returnm 1; 


pid = wait lg&status):; 
if { 户 1 己 = 三 -1]} 
Berror ("walitk"™):; 


printf ("pid=$%d\n", pid); 
if (WIFEXITED gtatus})) 


Erintt ("Normal termination with exit status=$d"rn", 
WEXITSTATUS {status}).; 
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if (WIFSIGNALED (status)) 
printf (*Killed by signal=$d$%s\n", 
WTERMSIG (status), 
WCOREDUMP (status) ? " {dumped core}” :; ""}): 


if WIiIFfSTOPPED (status}} 
printf ("Stopped by signal=%d\n", 
WSTOPSIG (status}l); 


if (WIFCONTINUED (status})) 
printf ("Continued‘\n"):; 


returrn 0D; 


此 程序 会 派生 一 个 子 进程 ， 而 此 子 进程 会 立即 结束 。 然 后 父 进程 会 执行 wait () 系统 
调用 来 判断 其 子 进程 的 状态 。 此 进程 会 输出 子 进程 的 Pia 以 及 它 是 如 何 死亡 的 。 因 为 
此 例 中 子 进程 的 终止 是 因为 从 main() 返回 ， 所 以 我 们 将 看 到 如 下 的 输出 ; 


pld=8529 
Normal termination with exit statuss=1 


如 果 不 考虑 让 子 进 程 返 回 ， 而 是 让 它 调 用 abort () ( 注 2) :来 送出 SIGABRT 信号 给 
和 自己， 我们 将 看 到 如 下 的 输出 : 
SS /WwWalit 


pid=8678 
Killed by slgnal=e 


等 待 特 定 的 进程 

观 赛 子 进程 的 行为 很 重要 。 然 而 一 个 进程 往往 具有 多 个 子 进程 ,而 且 不 想 等 待 所 有 子 进 
程 ， 但 会 希望 等 待 特 定 的 子 进程 。 解 决 方案 之 一 就 是 对 wait 1{) 进行 多 次 调用 ， 并 观 
察 每 次 调用 的 返回 值 。 但 是 这 相当 麻烦 一 一 如 果 你 后 来 想 检查 另 一 个 已 终止 的 进程 的 
状态 昵 ” 父 进程 必须 保存 wait () 的 所 有 输出 ， 以 备 日 后 所 需 。 

如 果 你 知道 要 等 待 进程 的 pid， 你 可 以 使 用 waitcpia() 系统 调用 ， 


#include <aye/types.hy 
#incljude <BYyg/Wwait.h> 


pid t waitpid (Bid t pid, int *gstatug, int optione):; 


证 之 : 害 闵 于 头 文 件 <stdlib.h> 中， 
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相 较 于 wait()，, waitpid(t) 系统 调用 是 一 个 功能 更 强大 的 版 本 。waitpial(t) 所 提 
供 的 额外 信息 你 可 以 进行 微调 (fine-tuning ) 。 


pid 参数 用 于 指定 要 等 待 的 是 哪个 进程 或 哪些 进程 。 它 的 值 可 分 成 四 大 部 分 : 


< -1 
等 待 其 进程 组 ID (process group ID) 等 于 此 值 的 绝对 值 的 任何 子 进 程 。 例 如 ， 传 
入 -500 表示 所 窜 待 的 是 进程 组 ID 为 500 的 任何 进程 。 


-1] 

等 待 任何 子 进程 。 此 刻 的 行为 如 同 wait 17) 
0 

等 待 与 calling process 【进行 调用 的 进程 ) 均 属 于 同一 个 进程 组 的 任何 子 进程 。 
> 涪 


等 待 其 pid 等 于 所 指定 值 的 任何 子 进程 。 例 如 ， 传 信 500 表示 所 等 待 的 是 pid 为 
500 的 于 进程 。 
status 参数 的 行为 如 同 wait {) 的 唯 -- 参 数 , 而且 可 以 使 用 前 面 所 介绍 的 宏 来 操作 它 。 


options 参数 可 以 是 零 个 或 多 个 以 下 选项 的 二 元 OR 逻辑 运算 ， 


WNOHANG 
不 要 阻挡 ， 如 采 设 有 相符 的 子 进 程 已 经 终止 【或 停止 ， 或 继续 ) ， 则 立即 返回 。 
WUNTRACED 


如 有 打 设 定 卫 ， 则 设 定 WIFSTOPPED， 即 使 calling process 并 未 追踪 子 进程 。 此 标 
志 让 我 们 可 以 实现 更 一 般 化 的 作业 控制 ， 如 同 在 shell 中 。 
WCONTINUED 
如 果 设 定 了 ， 则 设 定 WIFCONTINUED，, 即使 calling process 并 未 追踪 子 进程 。 如 
后 WUNTRACED， 此 标志 可 用 于 实现 一 个 shell。 
执行 成 功 上 时 ，waitpid'}) 会 返回 状态 已 改变 进程 的 pid。 如 果 指 定 了 WNOHANG 而 且 
所 指定 的 子 进 程 尚未 变更 状态 ， 则 waitpid() 会 返回 0。 发 生 错 误 时 ， 此 调用 会 返 
回 -1 并 且 将 errnc 设 定 成 下 面 的 其 中 一 个 值 


ECHILD 
pid 参数 所 指定 的 进程 不 存在 ， 或 者 不 是 calling process 的 子 进程 。 
EINTR 


未 指定 WNOHANG 选项 ， 而 且 在 等 待 的 时 候 收 到 了 一 个 信和 号。 
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EINVAL 
指定 了 无 效 的 options 参数 。 

举例 来 说 ， 假 设 你 的 程序 想 取得 特定 子 进程 (pid 1742) 的 返回 值 , 但 是 如 果子 进程 疝 

未 终止 ， 则 立即 返回 。 你 可 以 使 用 如 下 的 程序 代码 来 宛 成 此 事 : 


int statuiss 
pid t pid; 


pid = waitpid (1742, ESsLatus, WNOHANG).; 
if (pid == -1) 
perror ("waitpid"): 


电 ] Se 
printi ("pid=$%d\n",. pid):; 
if (WIFEXITED (status}y) 
printf ("Normal termination with exit status=$gd\n", 
WERITSTATUS (status}};}; 
if fwWIFSIGNALED (status}) 
printf ("Killed lby signal=%Sd®s\n'", 
WTERMSIG (status), 
WOOOREDUMP (status) ?3 " (Idumped core}™ 1: "™")}); 
J 


最 后 ， 请 注 共 如 下 和 的 wait () 用 法 ， 
walt (&status).: 
等 效 于 如 下 的 waitpid() 用 法 : 


waitpid {(-1, &status, 0); 


以 更 灵活 的 方式 等 待 
对 于 在 “等 待 子 进程 ”(waiting-for-children ) 功能 性 上 需要 更 大 灵活 度 的 应 用 程序 ,可 
以 使 用 POSIX 的 XS1 扩展 所 定义 (以 及 Linux 所 提供 ) 的 waitid1(): 
#include <sys/wait.h> 
int waitid (idtype 七 idtvype, 
id_t iqd, 


siginfo t *infop, 
int optiones}:; 


如 同 wait() 和 waitpid(}, waitid() 可 用 于 等 待 并 取得 关于 一 个 子 进程 的 状态 
变更 ( 终 目 .、 停止、 继续 ) 信息 。waitid() 提供 的 选项 比较 多 , 但 是 复杂 度 较 高 。 


如 同 waitpia(),，waitid() 允许 开发 者 指定 所 要 等 待 的 是 哪些 子 进程 。 然 而 
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waitid{) 并 非 使 用 一 个 参数 来 完成 此 任务 ， 而 是 使 用 两 个 参数 。idtype 与 id 参 
数 用 于 指定 所 要 等 待 的 是 哪些 子 进程 ， 其 所 达成 的 目标 如 同 waitpiad() 的 pia 参数 
所 达成 的 。idtype 可 以 是 下 面 的 其 中 一 个 值 : 


PpP PID 

所 要 等 待 的 是 其 进程 ID 与 ia 相符 的 子 进程 。 
P_GID 

所 要 等 待 的 是 其 进程 组 ID 与 :ia 相符 的 子 进程 。 
P_ALL 

等 待 所 有 子 进程 ，ia 会 被 忽略 。 
ia 参数 使 用 了 罕见 的 id_t 数据 类 型 ， 这 代表 它 是 一 个 通用 的 识别 号 码 。 如 果 未 来 的 
实现 中 加 入 新 的 iatype 值 ， 而且 推测 预定 闵 的 数据 类 型 需要 较 大 的 空间 来 保存 新 创 
建 的 标识 符 ， 则 可 以 使 用 此 函数 。 此 类 型 保证 可 以 提供 足够 大 的 空间 来 保存 任何 
pia te。 在 Linux 中 ,开发 者 可 能 会 把 它 当 成 pid_t 来 使 用 一 一 例如 ,直接 传人 pid_t 
值 或 数值 常量 。 然 而 ， 卖 弄 学 问 的 程序 设计 者 却 会 对 它 进行 类 型 转换 。 


options 参数 可 以 是 一 个 或 多 个 如 下 值 的 2- 元 OR 逻辑 运算 ， 


WEXILTED 
此 调用 将 等 待 已 终止 的 子 进程 (由 ia 和 idtype 指定 )。 
WSTOPPED 
此 调用 将 等 待 已 停止 执行 (为 了 响应 所 收 到 的 一 个 信和 号) 的 子 进程 。 
WCONTLNUED 
此 调用 将 等 待 已 继续 执行 (为 了 响应 所 收 到 的 一 个 信号 ) 的 子 进程 。 
WNOHANG 
此 调用 不 会 受到 阻挡 ， 如 果 没 有 相符 的 子 进 程 已 经 终止 (或 停止 ,或 继续 )， 则 立 
即 返 回 。 
WNOWAILT 
此 调用 不 会 将 相符 的 进程 从 僵尸 状态 移 除 。 因 为 将 来 可 能 需要 等 待 该 进程 。 
成 功 等 到 一 个 子 进程 时 ，wa itia() 会 将 值 填 人 infop 参数 ， 此 值 必须 指向 一 个 有 
效 的 siginfo_t 类 型 。siginfo_t 结构 的 设置 方式 因 实 现 而 异 〈 注 3) ， 有 些 字 段 
的 值 在 waitia() 调用 之 后 才 会 有 效 。 也 就 是 说 ， 成 功 的 waitia() 调用 会 将 值 填 
入 以 下 字段 : 


注 3; 没 氏 ,在 Linux 上 ，siginfo_t 结构 非常 复杂 。 它 的 定义 可 以 在 Musriincluder/ bits/ 
siginfo.hh 找到。 我们 将 在 第 九 章 详细 探讨 此 结构 ， 
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si_pid 
子 进程 的 pid。 
si_uid 
子 进程 的 uid。 
si_code 


此 字段 的 可 能 值 包括 CLD_EXITED、CLD_KILLED、CLD_STOPPED 以 及 
CLD_CONTINUED, 分 别 代表 子 进程 的 终止 . 因 信 号 而 死亡 、 因 信号 而 停止 以 及 因 
言 写 而 继续 。 
si_ sl1gno 
设 成 SIGCHLD。 
Sl_status 
如 果 si_code 字段 的 值 为 CLD_EXITED， 则 此 字段 的 值 就 是 子 进程 的 结束 码 ， 
否则 ， 此 字段 的 值 就 是 送 给 子 进程 导致 状态 改变 的 信号 的 数 日 。 
执行 成 功 了 时，waitid() 会 返回 0， 发 生 错 误 时 ，waitid() 会 返 -1 并 且 将 errno 
设 定 成 下 面 的 其 中 一 个 值 : 


ECHLD 

id 与 jdtype 所 指定 的 进程 并 不 存在 。 
ELINTR 

options 未 设 定 WNOHANG， 而 且 有 一 个 信号 导致 执行 停止 。 
EINVAL 


options 参数 或 id 参数 与 idtype 参数 的 组 合 指定 了 无 效 的 值 。 


waitid() 国 数额 外 提供 了 wait() 与 waitpid() 中 找 不 到 的 有 用 语义 。 特 别 是 由 
siginfo_t 结构 所 能 取 回 的 信息 非常 有 价值 。 然 而 ， 如果 不 需要 此 类 信息 ,那么 使 用 
较 简 单 的 函数 会 更 有 意义 , 因为 支持 这 些 函 数 的 系统 比较 广泛 , 所 以 可 以 被 移植 到 更 多 
站 Linux 的 系统 中 。 


BSD 要 使 用 : wait3() 与 wait4() 
ep 源 自 AT&T 的 System V Release 4 而 BSD 则 走 自己 的 路 ， 它 提供 了 两 
个 函数 ， 可 用 于 等 待 一 个 进程 改变 状态 ; 


#include <BVve/types.h> 
#include <eaya/time.h> 
#include <BYB/IEeBOUrce.hy> 
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#include Bys/wait .hy> 
Pid t wait3 (int *Btatue, 


int optiones, 
Btruct rusage *rugAaAge): 


pid t waitd (pid t pid, 
int *atatus, 


int optiones, 
Btruct rusage *rusage); 


助 记 符 3 及 4 代表 这 两 个 函数 分 别 是 wait () 的 具有 3 个 参数 的 版 本 及 具有 4 个 参数 
的 版 本 。 
如 果 不 使 用 rusage 参数 ， 此 函数 的 行为 类 似 于 waitpia(}。 如 下 的 wait3() 调用 : 
pid = wait3 (status, options, NULL); 
上 与 如 下 的 waitpidt) 调用 等 效 ， 
pid = waiirm!d {-i, stalus, Sptiongs), 
而 如 下 的 wait4() 调用 : 
pid = waitd (pid, status, optlions, NDT); 
与 如 下 的 waitpid() 调用 等 效 ， 
pid = waitpid (pid, status, opticns); 
也 就 是 说 , wait3() 会 等 待 任何 子 进 程 变更 状态 , 而 wait4() 会 等 待 pid 参数 所 
定 的 子 进 程 讼 更 和 状 态 。options 参数 的 行为 如 同 waitpidf) 的 。 
如 稍 早 所 述 ， 这 两 个 调用 与 waitpid() 最 大 的 不 同 在 于 rusage 参数 。 如 胰 此 参数 
的 值 不 是 NULL， 则 函数 会 填 入 一 个 指向 zusage 结构 的 指针 。 此 结构 提供 了 子 进程 
的 资源 用 量 {resource usage) 信息 : 
#include <sys/resource.h> 
struct rusage { 


Btruct timeval ru utime;: /* uger time consumed */ 
atruct timeval ru_ etime; /* gyatem time consumed */ 


loeng ru maxrass; /* maximum resident set size */ 
long ru ixrass: /* ghared memorYy aize */ 

long ru idraegs; /* unaghared data gize */ 

jong ru isrse: /:* unshared stack size */ 

long ru minfit:; /* page reclaims */ 

long ru majflt; A/* page faultes */ 

long ru newap; /i* Swap operations */ 


long ru inblock; /* block input operations */ 
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long ru Sublock; /* block output operations */ 


long ru magsnd} /* meseaages Sent */ 

lang TU magrewv: /* messadyes Teceived */ 

long ru naignales; /* gignals received */ 

long ru nvosw; /* voluntary context switches */ 
Iong ru niveoew; /* involuntary context ewitches */ 


}1 
下 一 章 我 们 将 进一步 探讨 资产 用 量 信 息 。 
执行 成 功 时 ， 这 两 个 函数 会 返回 已 改变 状态 进程 的 pia 执行 失败 时 ， 它 们 会 返回 -1 
并 且 和 将 errno 设 定 成 适当 的 值 ， 其 值 如 同 waitpiat) 所 返回 的 错误 值 。 
因为 POSIX 并 未 定 闷 wait31() 与 wait4({)( 注 4)， 所 以 最 好 仪 在 资源 用 量 信 息 至 


关 重 要 时 才 使 用 它们 。 尽 管 未 被 POSIX 标准 化 ， 然 而 几乎 每 一 种 Unix 系统 均 支 持 这 
两 个 调用 。 


启动 并 等 待 一 个 新 进程 

ANSIC 与 POSIX 定义 了 一 个 接口 , 可 用 于 产生 一 个 新 进程 并 等 待 它 的 终止 一 你 5 
以 将 此 视 为 同步 进程 的 创建 。 如 果 一 个 进程 产生 了 一 个 子 进程 并 且 立 即 等 竺 它 的 终止 ， 
便 可 以 使 用 此 接口 : 


#define XOPEN SOURCE /* if we want WEXITSTATUS, etc, */ 
#include stdlib.h> 





int syetem (const char *eommand); 


systeml{) 国 数 之 所 以 会 如 此 命名 是 因为 同步 进程 调用 又 被 称 为 “shelling out 10 the 
system 。system{) 征用 于 运行 一 个 简单 的 实用 程序 或 shell script， 通常 这 么 做 的 目 
的 只 古 取 得 它 的 返回 值 。 


system() 可 用 于 调用 command 参数 所 提供 的 命令 (包括 任何 额外 的 参数 )。.command 
参数 会 被 放 在 /binish -c 参数 之 后 ， 因 此 参数 会 被 整体 提供 给 shell。 


执行 成 功 上 时， 返回 值 就 是 命令 的 返回 状态 ， 如 同 wait () 所 提供 的 状态 。 因 此 ， 可 通 
过 WEXITSTATUS 取得 所 执行 命令 的 结束 码 。 如 果 /Pin 本 身 的 调用 失败 ， 则 
WEXITSTATUS 所 提供 的 值 如 同 exit (127) 所 返回 的 值 。 因 为 被 调用 的 命令 也 可 能 
会 返回 127， 所 以 没有 可 靠 的 方法 可 用 来 检查 这 是 否 为 shell 本 身 所 返回 的 错误 状态 。 
发 生 错 误 时 ， 些 调用 会 返回 -1。 


注 斗 : 尽管 wait3() 曾 被 纳入 最 初 的 Single UNIX Specification， 但 是 自 那 以 后 就 被 移 除 了 。 
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如 果 commangd 的 值 为 NULL , 而 且 有 /ins 可 用 , 则 system() 会 返回 一 个 非 零 值 ， 
否则 会 返回 0。 


命令 执行 期 间 , SIGCHLD 会 被 阻挡 ,而 SISINT 和 SIGSQUIT 会 被 名 了 略 . 和 忽 路 STGINT 
和 SIGQUIT 会 有 几 个 问题 ， 特 别 是 ， 如 果 system(}) 于 一 个 循环 中 被 调用 的 话 。 如 
果 在 循环 中 调用 system()， 你 应 该 确保 程 序 会 受 善 检查 子 进 程 的 结束 状态 。 例 如 ; 


do 二 
int ret: 


ret = system ("pldof rudderd"},; 
if (WIFSIGNALED {ret) && 
(WTERMSIG {ret} == SIGINT 1| 
WIERMSTG (ret) == SIGOQUIT)) 
break; /* or otherwise handle */ 
} while (1)}; 


systemt{) 水 数 可 以 使 用 fork() 、 一 个 exec 系列 国 数 以 及 waitpid() 来 实现 。 这 
是 一 个 很 有 用 的 练习 , 你 应 该 自己 试 着 做 一 做 , 因为 这 必须 将 本 章 所 提 到 的 许多 概念 连 
接 在 一 起 。 然 而 基于 完整 性 ， 此 处 提供 了 一 个 简单 的 实现 : 


Pi 

* my_system 同步 产生 并 等 待命 令 

* nbin/sh -ce <cmd>" 

* 发 生 任何 错误 时 返回 -1， 执行 成 功 时 返回 所 启动 进程 的 结束 码 。 
* 不 阻挡 或 忽略 任何 信号 

站 

nt my_system {const char *emd) 


‘ 





int status; 
pid_t pid:; 


pid = fork {}); 
if {pid == -1} 
return -1; 
else if (pid == 0} I 
const char *argv[d4]; 


argvyv[0] = "sh":; 

argv[l|] = "-o"; 

argv[2] = cmd: 

argw{[3] = NULL: 

全 其 全 CV ("A/Dbin/sh", argv):; 


exit 1{-1).; 
} 


if (waitpid (pid, &status, 0) == -1) 
recturn -=1];} 
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lse if (WIFEXITED listatus})) 
return WEXITSTATUS {status}: 


roeturn -1: 


请 注意 , 不 同 于 正式 的 system(), 此 范例 程序 不 会 阻挡 或 禁用 任何 信号 。 此 行为 是 好 
是 坏 ， 取 决 于 你 的 程序 的 情况 ， 但 是 至 少 不 阻 挡 SIGINT 通常 是 聪明 的 做 法 ， 因 为 这 
让 被 调用 的 命令 可 以 被 一 般 用 户 所 预期 的 方式 给 中 断 ,一 个 好 的 实现 会 加 入 额外 的 指针 
作为 参数 ， 当 它 非 NULL 时 ， 可 区 分 出 当前 所 发 生 的 是 何 种 错误 。 例 如 ， 它 可 以 加 入 
fork failed 和 shell_ failed, 


僵尸 进程 

如 同 稍 早 所 讨论 的 ， 一 个 已 经 终止 的 进程 如 果 尚 未 被 其 父 进程 检 查 过 状态 ， 则 称 为 “ 价 
户 进 程 ”(zombie process)。 伪 尸 进程 会 继续 消耗 系统 资源 ， 尽 管 它 只 会 占用 比例 很 小 
的 系统 资源 , 但 是 足以 维护 进程 原本 的 骨架 。 有 这 些 资源 被 保留 着 , 想 检查 其 子 进程 状 
态 的 父 进程 才 有 办 法 取得 与 这 些 进程 的 生 和 死 有 关 的 信息 。 一 旦 父 进 程 这 么 做 之 后 , 内 
核 便 会 清除 僵尸 进程 。 


然而 ， 任 何 长 时 间 使 用 Unix 的 人 肯定 都 普 看 过 无 所 事 事 的 僵尸 进程 。 这 些 进程 ， 常 称 
为 幽灵 进程 (ghosi), 获 因 于 不 负责 任 的 父 进程 。 如 果 你 的 应 用 程序 派生 了 一 个 子 进 程 ， 
你 的 应 用 程序 就 有 责任 (除非 它 很 短命 ， 正如 你 马上 会 看 到 的 ) 等 待 其 子 进程 ， 即 使 它 
仅仅 是 丢弃 所 收集 到 的 信息 。 否 则 ,你 的 进程 的 所 有 子 进程 将 成 为 无 所 事 事 的 幽灵 进程 ， 
挤 满 系 统 的 进程 列表 ， 并 让 用 户 对 你 的 应 用 程序 的 草率 实现 感到 不 满 。 


然 和 而， 如 霖 发 生父 进程 在 于 进程 之 前 死亡 (终止 )， 或 者 如 琳 在 它 死 亡 之 前 有 机 会 等 待 
它 的 僵尸 子 进 程 呢 ? 每 当 有 一 个 进程 终止 时 ,Linux 内 核 会 把 它 的 所 有 子 进程 重新 指派 
给 init 进程 (pid 值 为 1 的 进程 )。 这 样 可 确保 每 个 进程 都 会 有 一 个 直接 的 父 进程 。 于 
是 ，init 进程 会 周期 性 地 等 待 它 的 所 有 子 进程 这样 可 确保 僵尸 进程 不 会 停留 太 久 的 时 
辐 ` 会 成 为 幽灵 进程 ! 因此 ， 如 果 一 个 父 进程 在 子 进程 之 前 死亡 ， 或 者 没有 在 结 
东 之 前 等 待 它 的 子 进程 ,那么 这 些 子 进程 最 后 会 被 重新 指派 给 init 进程 而 由 它 负责 等 待 ， 
这 让 它们 全 部 可 以 结束 。 此 做 法 被 认为 是 一 个 好 的 实践 ， 有 了 这 个 保障 , 意味 着 短命 的 
进程 不 用 太 担 心 它 的 所 有 子 进程 。 


用 户 与 组 
如 本 章 稍 早 所 述 以 及 第 一 章 所 做 的 讨论 , 进程 会 被 关联 到 用 户 与 组 。 用 户 与 组 ID 的 值 可 
分 别 用 C 数据 类 型 uid_t 与 giq_t 来 表示 。 这 种 将 数值 形式 的 标识 符 映射 至 人 类 可 
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变更 有 效 的 用 户 或 组 ID 
Linux 为 当前 执行 的 进程 的 有 效用 户 与 组 ID 的 设 定 提供 了 两 个 POSIX 所 规定 的 函数 ， 


#include <avya/types.hy> 
#include <unistd.h» 


int seteuid (uia 七 euid); 

int setegid (gid t egid); 
seteuid() 可 用 于 将 有 效用 户 ID 的 值 设 定 成 euid。root 用 户 可 以 赫 euid 提供 任 
何 值 ， 非 root 用 户 只 可 以 将 有 效用 户 ID 的 值 设 定 成 真实 的 或 被 保存 的 用 户 ID。 执 行 
成 功 时 ，seteuiqd() 会 返回 0; 执行 失败 时 ， 它 会 运 回 -1 并 且 把 errno 设 定 成 
EPERM， 这 表示 当前 进程 的 拥有 者 并 非 root， 而且 euia 既 不 等 于 真实 用 户 ID 也 不 等 
于 被 保存 的 用 户 ID。 


请 注意 ， 在 用 户 不 是 root 的 情况 下 ，seteuid() 的 行为 如 同 setuialt)。 因 此 标准 
的 做 法 以 及 比较 好 的 主意 总 是 使 用 seteuid()， 除 非 你 的 进程 企图 以 root 的 身份 执 
行 ， 那 么 此 时 使 用 setuia() 会 更 有 意义 。 


前 面 的 讨论 同样 适用 于 组 一 一 仅 需 和 将 seteuial) 替换 成 setegid() 以 及 将 euiqd 
替换 成 egia。 


以 BSD 的 手法 变更 用 户 和 组 1D 
BSD 针对 用 户 与 组 ID 的 设 定 提供 了 它 自己 的 接口 。 基 于 兼容 性 , Linux 也 提供 了 这 些 接口 : 


#include <aya/typee.h> 
#include <uUnistd.h> 


int saetreuid (uiqd t ruid, uid t euiay : 

int setregid (gid t rgid, gid 七 egid}: 
setreuid() 可 用 于 将 一 个 进程 的 真实 的 以 及 有 效 的 用 户 ID 分 别 设 定 成 ruiad 与 euid。 
老将 任何 参数 值 设 定 成 -1， 则 相应 的 用 户 ID 会 维持 不 变 。 非 root 进程 只 能 将 有 效用 
户 ID 设 定 成 真实 的 或 被 保存 的 用 户 ID， 以 及 将 真实 用 户 ID 设 定 成 有 效用 户 ID。 如 果 
真实 用 户 ID 有 所 变动 ， 或 者 如 果 有 效用 户 ID 的 值 被 变更 成 不 等 于 之 前 真实 用 户 ID 的 
值 ， 则 被 保存 的 用 户 ID 的 值 会 变更 成 新 的 有 效用 户 ID。 至 少 ， 那 就 是 Linux 以 及 多 数 
其 他 Unix 系统 啊 应 此 类 变动 的 方式 。POSIX 并 未 定义 此 行为 。 


执行 成 功 时 ，setreuid() 会 返回 0; 执行 失败 时 ， 它 会 返回 -1 并 且 将 errno 设 定 
成 EPERM， 这 表示 当前 进程 的 拥有 者 并 非 root, 而 且 euia 既 不 等 于 真实 用 户 ID 也 不 
等 于 被 保存 的 用 户 ID， 或 者 ruid 不 等 于 有 效用 户 ID。 


进程 管理 169 





前 面 的 计 论 同样 适用 于 组 一 一 仅 需 将 setreuiadt{) 替换 成 setregid()、 将 ruia 
替换 成 rgid 以 及 将 euia 替换 成 egid。 


以 HP-UX 的 手法 变更 用 户 和 组 1D 
你 可 能 会 觉得 情况 越 来 越 混 乱 ， 就 连 HP-UX (Hewlett-Packard 的 Unix 系统 ) 也 提供 
了 自己 的 机 制 来 设 定 一 个 进程 的 用 户 与 组 ID。Linux 随后 也 提供 了 这 些 接口 : 


#define _GNU_SOURCE 
#include <unistd.h> 


int setresuid (uia t ruid, uid t euid, uid t suid); 

int setresgid (gid t rgiqd, gid t egid, gid t sgid); 
setresuid({) 可 用 于 将 真实 的 .有 效 的 以 及 被 保存 的 用 户 ID 分 别 设 定 成 ruia.euia 
以 及 suid。 若 将 任何 参数 值 设 定 成 -1， 则 相应 的 用 户 ID 会 维持 不 变 。 


root 用 户 可 以 将 任何 的 用 户 ID 设 定 成 任何 值 ， 非 root 用 户 可 以 将 任何 的 用 户 ID 设 定 
成 当前 的 真实 的 、 有 效 的 或 被 保存 的 用 户 ID。 执 行 成 功 上 时，setuid{}) 会 返回 0， 发 
生 错 误 时 ， 此 调用 会 返回 -1 并 且 将 errno 设 定 成 下 面 的 其 中 一 个 值 : 


EAGAIN 
uid 与 真实 用 户 ID 不 符 ， 而且 将 真实 用 户 ID 设 定 成 uid， 这 会 使 得 用 户 逾 越 其 
NPROC rlimit (用 于 指定 一 个 用 户 所 能 拥有 的 进程 的 数目 )。 

EPERM 
用 户 不 是 root, 而 且 企 图 将 真实 的 、 有 效 的 或 被 保存 的 用 户 ID 设 定 成 与 当前 的 真 
实 的 、 有 效 的 或 被 保存 的 用 户 [ID 不 符 的 值 。 


前 面 的 讨论 同样 适用 于 组 一 一 仅 需 将 setresuigd() 替换 成 setresgiqd ().、 将 
ruid 下 换 成 rgia、 将 euiqd 替换 成 egiqd 以 及 将 suiqd 替换 成 sgid，。 


首选 的 用 户 / 组 1D 操作 

韭 root 进程 应 该 使 用 seteuid() 来 变更 它们 的 有 效用 户 ID。root 进程 如 果 和 希望 变更 
这 三 种 用 户 ID， 则 应 该 使 用 setuid()， 如 果 只 希望 暂时 变更 有 效用 户 ID， 则 应 该 使 
用 seteuiaf)。 这 些 国 数 不 仅 简单 ， 而 且 行 为 与 POSIX 的 规定 相符 ， 也 适度 考虑 到 
了 被 保存 的 用 户 ID。 


尽管 提供 了 额外 的 功能 ，BSD 以 及 HP-UX 风格 的 函数 并 不 允许 进行 setuial) 与 
seteuidt) 无 法 做 的 任何 有 用 变更 。 





支持 被 保存 的 用 户 1D 

被 保存 的 用 户 与 组 ID 定义 于 IEEE Std 1003.1-2001 (POSIX 2001)， 而 且 Linux 自从 
时 期 的 1.1.38 版 内 核 便 支持 这 些 ID。 专 为 Linux 而 编写 的 程序 不 用 担心 被 保存 的 用 户 
ID 是 否 存 在 。 为 较 旧 的 Unix 系统 所 编写 的 程序 在 对 被 保存 的 用 户 与 组 ID 进行 任何 引 
用 之 前 ， 应 读 先 检查 宕 POSIX_SAVED_IDS。 


在 被 保存 的 用 户 与 组 ID 不 存在 的 情况 下 , 前 面 的 计 论 依然 有 效 , 只 要 把 提 及 被 保存 的 用 
户 与 组 ID 的 规则 的 任何 部 分 忽略 掉 即 可 。 


取得 用 户 和 组 1D 
下 面 这 两 个 系统 调用 会 分 别 返 回 真实 的 用 户 与 组 ID: 


#include <unistd.h> 
#include <svya/types.h> 


uid t getuid (void);} 

gid 七 getgid (void); 
这 两 个 系统 调用 不 会 失败 。 同 样 地 ， 下 面 这 两 个 系统 调用 会 分 别 返 回 有 效 的 用 户 与 组 
[ID : 


#include <unistdad,.hy 
#include <sys/types.h> 


Uid t geteuiqd (void); 
giqd t getegiqd (void}):; 


这 两 个 系统 调用 也 不 会 失败 。 


‘ 和 口 
会 话 与 进程 组 
每 个 进程 都 属于 一 个 进程 组 (process group) ， 这 个 集合 里 的 一 个 或 多 进程 与 其 他 进程 
的 关系 一 般 是 出 于 作业 控制 (job control) 的 目的 。 进 程 组 的 主要 属性 是 信号 可 以 被 伟 
送 给 组 中 所 有 进程 ;单一 动作 可 以 终止 (terminate) . 停止 (siop) 或 继续 同一 个 进程 组 
中 的 所 有 进程 。 


每 个 进程 组 都 会 有 独一无二 的 进程 组 ID (process group ![DD， 稍 简写 为 pgid) ， 而 且 都 
会 具有 一 个 进程 组 首领 进程 (process group leader)。 进 程 组 ID 等 于 进程 组 首领 进程 
的 pid。 只 要 进程 组 中 还 有 成 员 存 在 着 ， 进 程 组 就 会 一 直 存 在 着 。 即 使 进程 组 首领 进程 
终止 ， 进 程 组 仍 会 继续 存在 着 。 
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当 一 个 新 用 户 首次 登录 一 台 机 器 时 ， 登 录 进 程 (login process) 会 创建 一 个 新 的 会 话 
(session)， 此 会 话 由 单一 进程 组 成 ， 也 就 是 用 户 的 login shell。login shell 的 作用 为 会 
话 的 首领 进程 (session leader)。 会 话 的 首领 进程 的 pid 可 作为 会 话 ID (session 1D) 
用 。 一 个 会 话 由 一 个 或 多 个 进程 组 组 成 。 会话 会 赫 一 个 已 登录 的 用 户 安排 活动 ， 并且 将 
该 用 户 关联 到 一 个 控制 终端 (一 个 特定 的 tty 设备 ， 用 于 处 理 用 户 的 终端 110)。 因 此 ， 
会 话 主要 与 shell 的 业务 有 关 。 事 实 上 ， 其 他 的 业务 与 会 话 并 无 直接 的 关联 。 


进程 组 提供 了 一 个 机 制 , 让 信号 可 以 传送 给 进程 组 的 所 有 成 员 , 这 使 得 工作 控制 以 及 其 
他 shell 功能 变 得 简单 了 很 多 ， 会 话 存在 的 目的 在 于 结合 登录 进程 与 控制 终端 。 在 一 个 
会 话 中 ， 进 程 组 会 被 划分 成 一 个 前 台 进 程 组 (foreground process group) 以 及 雪人 小 或 
多 个 后 台 进 程 组 (background process grot) 。 当 一 个 用 户 离开 一 个 终端 时 ， 会 有 一 个 
sIGQUIT 信号 被 传送 给 前 台 进 程 组 中 的 所 有 进程 。 当 一 个 终端 什 测 到 网 络 断 线 时 ， 会 
有 一 个 信号 STGHUP 被 传送 给 前 台 进 程 组 中 的 所 有 进程 。 当 用 户 键入 中 断 键 (通常 是 
Ctrl+C), 会 有 一 个 SIGINT 信和 号 被 传送 给 前 人 台 进 程 组 中 的 所 有 进程 。 因 此 ,会话 让 终 
端 以 及 login shell 的 管理 变 得 更 简单 。 


举例 来 说 , 假设 有 一 个 用 户 登录 系统 以 及 她 的 login shell (pash)， 其 pid 为 1700。 此 
用 户 的 bash 实例 现在 是 一 个 新 的 进程 组 〈 它 的 进程 组 ID 为 1700) 的 唯一 成 员 和 首领 
进程 。 此 进程 组 现在 被 包含 在 一 个 新 的 会 话 ( 它 的 会 话 ID 为 1700) 之 内 ， 而 且 bash 
是 此 会 话 的 唯一 成 员 以 及 首领 进程 ,用 户 在 shell 中 所 执行 的 新 命令 会 运行 在 会 二 1700 
之 内 的 新 进程 组 中 。 这 些 进程 组 中 只 会 有 一 个 前 台 进 程 组 (也 就 是 一 个 直接 连接 到 用 户 
并 且 掌 控 终 端的 进程 组 )， 其 余 缘 为 后 台 进 程 组 。 
通常 一 个 系统 上 会 存在 许多 会 话 : 每 个 用 户 的 登录 会 话 , 以 及 包含 与 用 户 登 录 会 话 无 关 
的 进程 的 会 话 (如 守护 进程 )。 守 护 进程 (daemon) 往往 会 创建 自己 的 会 话 ， 以 避免 所 
关联 到 的 其 他 会 话 结束 所 导致 的 辣 题 。 
每 一 个 会 话 都 会 包含 一 个 或 多 个 进程 组 , 而 且 每 一 个 进程 组 至 少 会 包含 一 个 进程 。 包含 
了 多 个 进程 的 进程 组 通常 用 干 实 现 作 业 控 制 。 
shell 之 上 若 键 信和 下面 这 道 侧 令 : 

$ cat Ship-inventory 七 其 | grep booty | Sort 
则 会 产生 一 个 包含 三 个 进程 的 进程 组 这样, shell 可 以 同时 发 信号 通知 这 三 个 进程 。 因 
为 用 户 在 控制 台 (console) 上 键入 这 道 命令 的 时 候 并 未 加 上 结尾 的 “有 &” 符 号 ， 所 以 我 


们 可 以 说 此 进程 组 位 于 前 台 。 图 5-1 吕 以 看 到 会 话 、 进 程 组 、 进 程 与 控制 终端 之 则 的 关 
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图 5-1: 会 话 、 进 程 组 、 进 程 与 控制 终端 之 间 的 关系 





Linux 提供 了 若干 接 口 用 于 设 定 与 取得 跟 所 指定 进程 有 关 的 会 话 以 及 进程 组 。 这 些 接口 
主要 是 供 shell 所 使 用 ， 但 是 也 可 以 用 在 想 要 摆脱 会 话 与 进程 组 的 业务 的 进程 中 ， 例 如 
守护 进程 【daemon) 。 


会 话 系统 调用 
shell 会 在 登录 的 时 候 创 建新 的 会 话 。 它 们 通过 一 个 特殊 的 系统 调用 完成 此 工作 ; 
#include <unistd.h> 


Pid t seteaeida (void): 


在 进程 尚 不 是 一 个 进程 组 首领 进程 时 ， 调 用 setsid() 可 创建 一 个 新 的 会 话 。calling 
process (进行 调用 的 进程 ) 将 成 为 新 会 话 的 首领 进程 以 及 此 会 话 的 唯一 成 员 , 此 会 话 并 
没有 控制 终端 。 此 调用 还 会 在 此 会 话 中 创建 一 个 新 的 进程 组 , 并 且 计 calling process 成 
为 进程 组 自视 进程 以 及 此 进程 组 的 唯一 成 员 。 新 会 话 与 进程 组 ID 会 被 设 定 成 calling 
process 上 的 pid 。 


换言之 ,setsial) 会 在 一 个 新 的 会 话 中 创建 一 个 新 的 进程 组 , 而 且 让 calling process 
成 为 这 两 者 的 首领 进程 ,这 对 不 想 成 为 现 有 会 话 成 员 或 者 不 想 控制 终端 的 守护 进程 而 言 
很 有 用 ， 而 且 对 想 替 每 个 登录 系统 的 用 户 创 建 一 个 新 会 话 的 shell 而 言 也 很 有 用 。 


执行 成 功 时 ，setsial) 会 返回 所 创建 会 话 的 会 话 ID, 发 生 错 误 时 ,此 调用 会 返回 -1，。 
errno 只 有 一 个 可 能 值 EFERM， 代 表 此 进程 当前 已 经 是 一 个 进程 组 首领 进程 。 最 简单 
的 做 法 就 是 确定 所 要 派生 的 进程 不 是 一 个 进程 组 首领 进程 ,让 父 进程 终止 以 及 让 子 进 程 
执行 setsid()。 例 如 : 
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pid_t pid:; 


pid = fork (}; 

it (Dlg == 一 ]】 { 
perror ("fork"}.; 
return -1:; 

} else if (pid != 0)} 
Exit (EXIT SUCCESS); 


if (setsid 1} == -1) 1 
perror ("setsid"); 
return -1; 


也 可 以 取得 当前 的 会 话 ID， 尽 管用 处 不 大 : 


#define XOEPEN SOURCE 500 
#include <unistd.h> 


pid 七 getsid (pid _t pid):; 
gektsial) 会 返回 pia 所 指定 的 进程 的 会 话 ID。 如 果 pid 参数 为 0， 则 此 调用 会 返 
回 calling process 的 会 话 ID。 发 生 错 误 时 ， 此 调用 会 返回 -1。errno 只 有 一 个 可 能 
值 ESRCH， 代 表 piq 并 未 对 应 到 一 个 有 效 的 进程 。 请 注意 ， 其 他 的 Unix 系统 还 会 将 
errno 设 定 成 EPERM, 代表 pid 与 calling process 并 不 属于 同一 个 会 话 ; Linux 并 不 
会 返回 此 错误 代码 ， 而 会 很 恰 快 地 返回 任何 进程 的 会 话 1D。 
此 调用 很 少 被 用 到 ， 主 要 用 于 诊断 : 

pid_t sid; 


sid = getsid TD) 
i tsid == -| 


perror ("getsid"); /* 应 读 趟 可 能 */ 
else 
printf ("My session id=%d\n", sid}; 


进程 组 系统 调用 
setpgid() 会 将 pia 所 指定 的 进程 的 进程 组 ID 设 定 成 pgigd: 


#define XOPEN SOURCE S00 
#include <unistd.h> 


int setpgid (pid t pid, pid t pgid); 


如 果 pia 的 值 为 0， 则 会 使 用 当前 的 进程 ;如果 pgiga 的 值 为 0, 则 pia 所 指定 进程 
的 进程 ID 会 被 当成 进程 组 ID。 
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执行 成 功 时 ，setpgigd({) 会 返回 0。 执行 成 功 代 表 符 合 以 下 几 个 条 件 : 
。 pid 所 指定 的 进程 必须 是 calling process (进行 调用 的 进程 )， 或 者 是 calling 
process 的 一 个 未 调用 exec 的 子 进程 而 县 与 calling process 峙 隶属 同一 个 会 话 。 
. pid 所 指定 的 进程 不 可 以 是 一 个 会 话 的 首领 进程 。 
和 如 果 paia 已 经 存在 ， 它 必须 与 calling process 皆 隶 属 间 一 个 会 话 。 
* Pogid 不 可 以 是 负 值 。 
发 后 错 误 时 ， 此 调用 会 返回 -1， 而 且 会 将 errno 设 定 成 下 面 的 其 中 一 个 错 读 代码 : 
EACCESS 
pigd 所 指定 的 进程 是 calling process 的 一 个 已 经 调用 exec 条 了 千 进 程 。 
FEINVEAL 
pgid 的 值 小 于 90。 
EPERM 
piqd 所 指定 的 进程 是 一 个 会 话 的 首领 进程 ,或 者 与 calling process 分 属 不 同 会 话 ， 
亦 或 者 企图 将 一 个 进程 移 往 位 于 不 同 会 话 的 进程 组 。 
ESRCH 
pigd 不 是 当前 进程 0， 或 者 不 是 当前 进程 的 一 个 子 进程 。 
如 同 会 话 ， 尽 管 可 以 取得 一 个 进程 的 进程 组 ID ， 但 是 用 处 不 大 : 


#define XOFEN SOURCE S00 
#incl]ude <uniastd.h> 


pid 七 getpgid (Pia t pid); 


getpgid({) 会 返回 pid 所 指定 进程 的 进程 组 ID。 如 果 pid 的 值 为 0, 则 会 使 用 当前 
进程 的 进程 组 ID。 发 生 错误 时 ， 它 会 返回 -1 并 且 将 errno 设 定 成 ESRCH， 这 是 唯 
一 的 可 能 值 ， 表 示 pia 是 一 个 无 效 的 进程 1D。 


如 同 getsid()，getpgid() 主要 用 于 诊 新 ， 
pid_t pgid; 


bgqiqd = getpgid {02},， 
if {pgid == =1} 
perror f"getpgigd"}; /* 应 该 不 可 能 */ 
二 
printf ("My process group id=%d"\n", pgid}: 
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过 时 的 进程 组 函数 
Linux 支持 了 两 个 来 自 BSD 的 较 旧 型 的 接口 ， 用 于 操纵 或 取得 进程 组 ID。 因 为 它们 不 
如 先前 所 探讨 的 系统 调用 有 用 ， 所 以 新 的 程序 只 应 该 在 迫切 需要 移植 的 时 候 使 用 它们 。 
setpgrp{) 可 用 于 设 定 进 程 组 ID; 

#include <unistd.hy> 

int setpgrp {void}; 
如 下 的 调用 : 


if tsetpagrp ()} == -1) 
Derror ff"setpoagrpn"!.; 


等 效 于 如 下 的 调用 : 


if (setpgid (0,0) == -1) 
perror ("setpgid"), 


以 上 两 种 调用 会 试图 把 当前 进程 指派 给 数值 与 当前 进程 pid 相同 的 进程 组 ， 调 用 成 功 
会 返回 0， 调 用 失败 会 返回 -1。setpgid() 的 errno 的 所 有 可 能 值 皆 可 应 用 于 
setpgrp(}) (但 是 ERSCH 除外 )。 


同样 地 ， 调 用 getpgrp() 可 用 二 取得 进程 组 ID ; 


#include <uniastd.h> 


pid t getpgrp (void)}),: 
如 下 的 调 册 : 

pid_t pgid = getpgrp (1):; 
等 效 十 : 

pid_ +t pgid = getpg!e tdi; 


它们 都 会 返回 calling process 的 进程 组 ID。 国 数 getpgid1{) 不 会 失败 。 


i 二 口 

守护 进程 【daemon) 是 一 个 在 后 台 运 行 的 进程 , 它 不 会 连接 到 任何 控制 终端 。 守 护 进 程 
一 般 会 于 引导 时 启动 , 并 且 会 以 root 或 其 他 特殊 用 户 (例如 apache 或 posrtfix) 的 身份 
运行 ， 而 生 所 处 理 的 是 系统 层 的 任务 。 按 照 惯 例 ， 一 个 守护 进程 的 名 称 通常 会 以 字母 d 
结尾 (例如 crond 以 及 YAhd)， 但 是 这 并 非 必 要 的 ， 甚 至 不 具有 普 明 性。 
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此 名 称 源 自 Maxwell's demon (麦克 斯 韦 尔 的 小 妖 )， 这 是 物理 学 家 James Maxwell 于 
1R&7 和 企 所 提出 的 一 个 相 注 ”daemon (精灵 1 评 有 是 希腊 神话 中 招 自 然 的 存在. 它 存在 干 


Oy 
“daemon 入 :广大 脐 中 dae9n :入 天 寺 不 必 人 症 利 翅 革 .的 山 ， 正 带 能 得 基 引 ， 
和 往生 存 禹 标 旋 二 上 正 座 神 完成 乞 们 际 愿意 做 的 这 一 一 这 与 LITR 的 Caenor 

~- 各 前 各 月 广 完 访 化 想 要 洲 偶 区 工作 非常 像 一 一 一 一 一 一 一 一 一 一 一 一 
个 得 连接 到 -个 守护 进 程 通常 需要 符合 两 项 需求 : 它 必须 是 init 的 一 个 子 运 程 , 而 EE 它 


一 个 终 闹 。 
总 之 ， 一 个 程序 完成 以 下 步骤 就 可 以 变 成 一 个 daemon 
1. 调用 fork()。 这 会 创建 一 个 新 的 进程 ， 这 个 新 进程 将 变 成 daemon。 


父 进 程 ) 的 2. 在 父 进程 中 调用 exit1()。 这 样 可 以 确保 原始 的 父 进程 (daemon 的 祖 
aemon 并 非 需求 得 到 满足 : 其 子 进 程 会 被 终止 、daemon 的 父 进程 不 再 运行 以 及 di: 
牛 。 一 个 进程 组 的 首领 进程 。 最 后 一 点 是 下 个 步 又 可 以 成 功 完 成 的 必要 条 
xsL daemon 3. “调用 setsid(), 替 daemon 创建 一 个 新 的 进程 组 以 及 会 话 , 这 两 者 均 
时 只 会 创建 为 首领 进程 。 这样 也 可 以 确保 该 进程 不 会 被 关联 到 控制 终 羡 (因为 该 进 


一 个 新 的 会 话 ， 而 不 会 指派 既 有 的 会 话 )。 

4. ”使 用 chdir() 将 工作 目录 切换 至 根 目 孙 。 这 么 做 是 因为 所 继承 的 工作 目录 可 以 
位 于 文件 系统 上 的 任何 位 置 。daemon 通常 会 在 系统 正常 运行 期 间 运 行 ,而且 你 不 
会 想 保 留 某 个 随机 打开 的 目录 , 因此 可 避免 管理 者 疤 载 (unmount) 包含 该 目录 的 
文件 系统 。 


5. 关闭 所 有 文件 描述 符 。 你 不 会 想 继承 已 打开 的 文件 摘 述 符 并 让 它们 持续 打开 。 


6. ”打开 文件 描述 符 0、1 与 2 ( 标 崔 输入 、 标 准 输出 与 标准 错误 ) 并 将 它们 重 定 癌 至 
/devinull 。 


根据 以 上 规则 ， 我 们 可 以 让 一 个 程序 本 身 变 成 守护 进程 : 


#include <sys/types.h> 
#include <sys/stat.h> 
tinclude <atdlib.h> 
#include <std1i5.h»> 
tinclude <fcntl .hs 
#include <unistd.h> 
#include <linux/fs.h> 


int main (voiad) 
+{ 
Bid t pid; 
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1int 1; 


/* 创建 新 的 进程 */ 
pid = fork {}); 
if tpid == -1) 
return =1; 
else if (pid != 0) 
exlit EXIT _ SUCCESS):; 


+* 创建 新 的 会 话 以 及 进程 组 *y 
if isetsid 1} -1) 
retuyurn -1:; 


/* 将 工作 目录 设 定 成 根 目录 */ 
if chdir fn == -1) 
return -1; 





i* 甘 用 所 有 已 打开 的 文件 NR_OPEN 有 点 小 题 大 做 ， 但 是 可 行 */ 
for (1 0; i < NR_OPEN; I++) 
close (1): 


将 碍 的 0、1、2 重 定 向 至 /devi/null */ 


open tt"/devwinull", 站 RODWR): A:* stdin */ 
dup (0); A:* stdout *y 


dup 10}:; :** stderror *y 


i* 做 守护 进程 该 做 的 事 ……*7/ 


Teturin 0: 
} 


多 数 Unix 系统 会 在 它们 的 C 链接 库 中 提供 一 个 aaemon () 函数 ， 以 便 自动 进行 这 些 
步骤 ， 化 党 为 向 : 

” 厘 1neluae <unigstd.h;» 

int daemon (lint nochdir, int noclose); 

如 来 ncchdir 为 非 雯 值 , 则 守护 进程 不 会 把 它 的 工作 目录 切换 成 根 目录 ,如果 noclose 
为 非 零 值 , 则 守护 进程 不 会 关闭 所 有 已 打开 的 文件 描述 符 。 如果 父 进程 已 经 设置 了 这 些 成 
为 守护 进程 的 过 程 ， 这 些 选 项 将 会 很 有 用 。 然 而 ， 一 般 会 对 这 两 个 参数 传人 0 。 
执行 成 功 时 ， 此 调用 会 返回 0; 执行 失败 时 ， 此 调用 会 返回 -1， 而 且 errno 会 被 设 
定 成 -一 个 来 自 fork() 或 setsid() 的 有 效 错误 代码 。 


结束 语 
我 们 在 本 章 说 明了 Unix 进程 管理 的 基本 功能 ,从 进程 的 创建 到 进程 的 终止 均 洱 盖 在 内 。 
下 一 章 ， 我 们 将 说 明 较 高 级 的 进程 管理 接口 以 及 用 于 变更 进程 调度 行为 的 接口 。 
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何 时 运行 以 及 运行 多 久 是 进程 调度 程序 的 基本 责任 。 


对 配备 单 处 理 器 的 机 器 而 言 ， 一 个 多 任务 操作 系统 (multitasking operating system) 能 
够 交错 执行 一 个 以 上 的 进程 ,这 会 给 人 一 个 错觉 , 仿佛 有 多 个 进程 同时 运行 。 对 配备 了 
多 处 理 器 的 机 器 而 言 , 一 个 多 任务 操作 系统 允许 多 个 进程 实际 地 在 不 同 的 处 理 苷 上 同时 
运行 。 对 一 个 非 多 任务 的 操作 系统 而 言 ， 例 如 DOS, 同一 时 间 内 只 能 运行 一 个 应 用 程序 。 


多 任务 操作 系统 又 分 成 两 类 : 协同 式 (cooperative) 以 及 抢占 式 (preemptive)。Linux 
所 实现 的 是 抢占 式 多 任务 机 制 , 在 此 多 任务 机 制 中 , 调度 程序 会 决定 何 时 可 以 停止 一 个 
进程 的 运行 , 让 和 不同 的 进程 可 以 继续 运行 。 我 们 将 暂停 一 个 运行 中 的 进程 而 让 另 一 个 进 
程 继 续 运 行 的 行为 称 为 枪 占 (preemption)。 此 外 , 在 调度 程序 抢占 一 个 进程 之 前 , 该 进 
程 所 能 运行 的 上 时间 长 短 就 称 为 处 理 器 的 时 间 片 (之 所 以 会 称 为 时 间 片 , 是 因为 调度 程序 
会 将 处 理 器 的 每 个 时 间 片 段 分 配给 每 个 可 运行 的 进程 )。 


反 过 来 说 ， 在 协同 式 多 任务 机 制 中 ， 一 个 进程 不 会 停止 运行 ， 除 非 该 进程 目 愿 这 么 做 。 
我 们 将 一 个 进程 自愿 暂停 自己 的 行为 称 为 让 出 (yietdinrg) CPU。 理想 情况 下 , 进程 会 经 
常 让 出 CPU ， 但 是 操作 系统 并 不 会 强迫 进程 这 么 做 。 一 个 粗略 或 不 完整 的 程序 可 能 会 
运行 比较 和 久 的 时 间 【〈 相 较 于 经 过 优化 的 程序 ) ， 甚 至 是 拖 紫 整个 系统 。 由 于 此 做 法 有 扔 
点 ， 所 以 现代 的 操作 系统 几乎 普遍 采用 抢占 式 多 任务 的 做 法 ，Linux 也 不 例外 。 


2.5 版 内 核 系列 所 引进 的 O( 广 进程 调度 程序 是 Linux 调度 的 关键 ( 注 1) 。Linux 调 朗 
算法 除了 提供 抢占 式 多 任务 , 还 支持 多 处 理 器 、 处 理 器 业 和 性 (processor affinity ) 、 非 
一 致 内存 访问 {nonuniform memory access， 党 简写 成 NUMA1) 配置 、 多 线程 、 实 时 
进程 以 及 用 户 提供 优先 级 (user-provided priority) 等 功能 。 


大 O 〇 符号 
OD(1) 一 -一念 成 “big oh of one”(1 的 大 0}, 是 大 OQ 符号 (big-oh notation) 的 一 个 示 
例 ， 用 于 表示 一 个 算法 的 复杂 度 (complexity) 以 及 可 伸缩 度 (scalability)。 它 的 正式 
定义 为 ; 
lt F(x) 1s Olg (Xx)), 
then 
3ec,x such that f (x) cg (x), Vixsx 


注 1]. 好 上 丙 的 读 甫 可 以 在 内 核 源码 树 中 的 kermelsched.e 找到 进程 调度 程序 的 定义 ， 
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它 的 意思 是 说 ,， 某 一 算法 /的 值 总 是 小 于 或 等 于 8 的 值 乘 以 茶 一 任意 贡 量 ,只 要 和 输入 的 
x 大 于 某 一 初始 值 六 。 也 就 是 说 ，8 跟 上 /一样 大 ， 或 者 大 于 f; 8 征 卫 的 上 限 。 


因此 ，O(1) 意味 着 算法 的 复杂 度 小 杆 某 个 兽 量 cc。 此 情况 可 归纳 出 一 个 重要 的 结论 : 
Linux 进程 调度 程序 的 执行 上 时间 为 沛 量 ， 与 系统 上 的 进程 数目 无 关 。 这 很 重要 ， 因 为 选 
出 可 运行 的 新 进程 显然 涉及 了 奉 少 一 次 (如 未 不 征 多 次 ) 的 进程 列表 过 代 。 使 用 较 人 简单 
的 调度 程序 (包括 Linux 早期 版 本 所 使 用 的 那些 )， 当 系统 上 的 进程 数目 增长 时 ， 此 类 
和 迭代 (iteration ) 很 快 就 会 增长 成 一 个 可 能 的 瓶 开 ,此 类 循环 (loop) 至 多 会 替 进 程 的 调 
度 带 来 不 可 人 确定 性 。 


Linux 调度 程序 的 运作 是 间 为 常量 ， 不 受 任 何 因素 的 影响 ， 没 有 这 样 的 瓶颈 问题 。 


时 段 

Linux 分 配给 每 个 进程 的 时 间 片 (timeslice) 在 系统 的 整体 行为 和 性 能 中 是 一 个 重要 的 
变量 。 如 来 时间 片 太 大 ,进程 在 两 次 执行 之 则 必须 等 待 一 段 很 长 的 时 间 , 这 会 使 得 并 行 
执行 出 现 的 机 会 降 到 最 小 。 用 户 可 能 会 对 显著 的 延迟 感到 诅 形 。 反 过 来 说 ， 如 果 了 时 间 片 
太 小 , 则 会 有 大 量 的 系统 时 间 被 花 在 从 一 个 应 用 程序 切换 到 另 一 个 应 用 程序 上 , 而 且 会 
表 失 temporal locality (时 间 局 部 性 ) 之 类 的 好 处 。 


因此 ， 决 定 一 个 理想 的 时 间 片 值 并 不 容易 。 会 给 进程 提供 较 大 的 时 间 片 ， 
珊 望 能 够 最 大 化 系统 的 各 吐 量 以 及 整体 的 性 能 .有 些 操作 系统 会 给 进程 提供 非常 小 的 时 
则 片 ， 而 包 能 煞 为 一 人 系统 提供 绝 信 的 交 世 性 能 。 正 如 我 们 将 看 到 的 ，Linux 的 目标 是 
通过 动态 分 配 进程 的 时 回族 ， 在 这 上 是 方面 达到 最 佳 的 效果 。 


请 注意 ， 一 个 进程 不 震 要 一 次 用 完 它 的 所 有 时 间 片 。 一 个 进程 被 指派 了 100 ms 的 时 间 
厂 ， 可 能 会 先 运行 20 ms， 然 后 等待 某 个 资源 ， 例 如 键盘 的 输 和 大。 调度 程序 会 暂时 将 此 
进程 从 可 运行 进程 列表 中 移 除 。 当 所 等 待 的 资源 变 为 可 用 时 一 一 此 处 是 指 键盘 缓冲 器 
灾 为 非 宇 日 ， 调 不 程序 会 唤醒 此 进程 。 然后 此 进程 可 以 继续 运行 , 直到 它 用 完 时 间 片 的 
其 余 80 ms ， 或 者 直到 它 再 次 等 待 菜 个 资源 。 


MO 密集 型 与 处 理 咽 密集 型 进程 

会 继续 耗 用 所 有 可 用 时 间 片 的 进程 称 为 处 理 器 密集 型 (processor-bound)。 此 类 进程 极 
度 询 户 CPU 时 间 ， 而 且 会 用 完 调 度 程 序 指派 给 它 的 所 有 时 间 片 。 最 简单 的 例子 就 是 一 
个 无 穷 循 环 ， 其 他 的 例子 包括 科学 计算 、 数 学 计算 以 及 图 像 处 理 。 
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另 一 方面 ， 会 花 比 较 多 的 时 间 等 待 资源 的 进程 称 为 /O 密集 型 (WO-pound)。LO 密集 
型 进程 常会 发 出 并 等 待 文件 UO 、 等 待 键盘 的 输入 或 者 等 待 用 户 移动 鼠标 。LO 密集 型 
应 用 程序 的 例子 包括 只 会 送出 系统 调用 请 求 内 核 执行 VO 的 实用 程序 ， 例 如 cp 或 my， 
以 及 将 许多 时 间 花 在 等 待 用 户 输入 的 GUI 应 用 程序 。 


处 理 器 密集 型 与 IO 密集 型 应 用 程序 的 差异 在 于 ,调度 程序 会 以 对 它们 最 有 利 的 方式 来 
调整 调度 的 行为 。 处 理 器 密集 型 应 用 程序 渴望 尽 可 能 获得 最 大 的 时 间 片 , 这 让 它们 可 以 
最 大 化 缓存 区 的 命中 率 (通过 temporal locality), 以 及 让 它们 的 工作 能 够 尽快 完成 。 相 
对 而 言 ，LO 密集 型 进程 不 一 定 需 要 较 大 的 时 间 片 ， 因 为 在 它们 送出 WO 请 求 以 及 竺 往 
其 个 内 核资 源 之 前 ， 它 们 一 般 会 运行 一 段 非常 短 的 时 间 。 然 而 ，UO 密集 型 进程 将 得 利 
于 调度 程序 的 持续 关注 (constant attention) 。 如 果 受 阻挡 以 及 派 运 多 个 IO 请 求 之 后 
此 类 应 用 程序 可 以 越 快 重新 开始 则 它 越 能 善 加 利用 系统 的 和 资源。 此 外 ， 如 采 应 用 程 厅 
需要 等 待 用 户 的 输入 ， 则 它 也 是 越 快 被 调度 ， 于 是 用 尸 对 执行 未 间断 的 感受 也 就 越 大 。 


同时 满足 处 理 器 密集 型 以 及 LO 密集 型 进程 的 需要 并 不 容易 。Linux 调度 程序 会 试图 找 
到 并 优待 MO 密集 型 应 用 程序 ， LO 密集 型 应 用 程序 的 优先 级 会 被 提升 ， 而 处 理 器 密集 
型 应 用 程序 的 优先 级 则 会 被 降低 。 


事实 上 , 多 数 应 用 程序 既是 MO 密集 型 也 是 处 理 器 密集 型 。 音频 与 视频 的 编码 与 译 码 便 
是 一 个 好 例子 。 许 多 游戏 也 是 这 种 情况 。 所 以 不 一 定 总 是 能 够 辨识 出 特定 应 用 程序 的 倾 
向 ， 而 且 任 一 时 间 点 上 上， 特定 进程 的 行为 可 能 是 MO 密集 型 也 可 能 是 处 理 器 密集 型 。 


抢 三 式 幸 度 

当 一 个 进程 把 它 有 向 时 则 片 用 完 时 , 内 核 会 暂 信 该 进程 并 者 手 运 行 一 个 新 的 进程 。 如 林 系 
统 上 没有 可 运行 的 进程 , 则 内 核 会 取得 一 组 已 将 时 间 片 用 完 的 进程 , 重新 补足 它们 的 时 
同 厂 并 再次 痢 手 运行 它们 。 这 样 , 所 有 进程 最 终 部 得 以 运行 ， 即使 系统 上 有 优先 级 较 六 
的 进程 一 一 优先 级 较 低 的 进程 只 需 守 待 优先 级 较 高 的 进程 用 完 它 们 的 时 间 片 或 者 受到 
阻挡 。 此 行为 明确 描述 了 一 个 重要 但 心照 不 宣 的 Unix 调度 规则 : 所 有 的 进程 都 必须 前 进 。 


如 果 系 统 上 并 不 存在 任何 可 运行 的 进程 ， 内 核 会 运行 空闲 进程 (idie procesy)。 空 亲 进 
程 事实 上 根本 不 是 一 个 进程 , 它 实 际 上 也 不 会 运行 (以 便 节 省 电池 的 电力 ), 事实 上 , 空 
亲 进 程 定 内 核 所 执行 的 一 个 特殊 例 程 ,用 以 简化 调度 程序 算法 并 让 进程 记 账 变 得 更 容易 。 
困 时 间 (idle time) 只 是 用 来 运行 空间 进程 的 时 间 。 

如 果 有 一 个 正在 运行 的 进程 , 而 且 有 一 个 优先 级 较 高 的 进程 变 为 可 运行 的 (或 许 是 因为 


蕊 正在 等 待 键盘 的 输入 ， 而 且 用 户 刚 好 键入 了 一 个 字 )， 于 是 内 核 会 立即 暂停 当前 正在 
运行 的 进程 , 并 且 着 手 运 行 优先 级 较 高 的 进程 。 因 此 , 优先 级 高 于 当前 正在 运行 进程 的 
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进程 绝 不 可 能 进入 可 运行 但 未 运行 的 《runnable-but-not-running) 状态 。 正 在 运行 的 进 
程 往往 是 系统 中 优先 级 最 高 的 可 运行 进程 。 


线程 

线程 (thread) 是 单一 进程 内 部 的 基本 执行 单位 。 所 有 进程 至 少 都 会 有 一 个 线程 。 每 个 
线程 都 会 有 它 自己 的 虚拟 处 理 器 : 它 自 己 拥有 一 套 寄存 器 、 指令 指针 以 及 处 理 袁 状态 。 
尽管 多 数 进 程 都 只 具有 一 个 线程 , 不 过 进程 也 可 以 具有 大 量 的 线程 , 虽然 它们 各 日 执行 
不 同 的 任务 ， 但 是 共享 相同 的 地 址 空间 〈 因 而 共享 相同 的 动态 内 存 、 所 映射 的 文件 、 目 
标 码 等 )、 所 打开 的 文件 以 及 其 他 内 核资 源 。 


Linux 内 核对 线程 具有 一 种 感 兴趣 且 独 特 的 看 法 。 基 本 上 ， 内 核 并 没有 这 样 的 概念 。 对 
Linux 内 核 而 言 ， 所 有 的 线程 都 是 一 个 独特 的 进程 。 广 泛 来 看 ， 两 个 无 关 的 进程 与 单一 
进程 中 的 两 个 线程 之 间 并 无 差别 。 内 核 只 会 将 线程 视 为 共享 资源 的 进程 。 也 就 是 说 ， 和 内 
核 会 将 由 两 个 线程 所 组 成 的 进程 视 为 两 个 共享 同一 组 内 核资 源 (地 址 空间 、 所 打开 的 文 
件 等 ) 的 进程 。 


多 线程 程序 设计 (maliithreaded programming) 是 一 门 以 线程 进行 程序 设计 的 技术 。 
Linux 上 用 于 以 线程 进行 程序 设计 的 最 常见 API 束 古 经 过 1EEE Std 1003.1c-1995 
(POSIX 1995 或 POSIX.1c)】 标准 化 的 API。 开 发 者 常会 调用 实现 了 此 API 的 链接 库 
prpreads。 以 线程 进行 程序 设计 是 一 个 复杂 的 主题 ， 而 且 pthreads API 既 大 用 复杂 。 
此 ，pthreads 并 不 在 本 书 讨论 之 列 。 然 而 ， 本 书 会 把 焦点 放 在 用 来 建立 pthreads 链接 
库 的 接口 上 。 


让 出 处 理 怖 


尽管 Linux 是 一 个 抢占 式 多 任务 操作 系统 ， 不 过 它 也 提供 了 一 个 系统 调用 ， 允 许 进程 
主动 让 出 执行 权 ， 以 及 措 示 调度 程序 选 出 并 运行 一 个 新 的 进程 : 


#include <5ched.h> 


int sched vield (void)}; 


调用 sched_yie1ld() 的 结果 是 暂停 当前 正在 运行 的 进程 于 是 进程 调度 程序 会 选 出 
并 运行 一 个 新 的 进程 ,这 就 好 像 是 内 核 目 己 抢占 当前 正在 运行 的 进程 以 便 执行 一 个 新 的 
进程 。 请 注意 ， 如果 不 存在 任何 其 他 的 可 运行 进程 ， 这 是 经 常 发 生 的 情况 ， 则 让 出 执行 
权 的 进程 会 立即 继续 执行 下 去 。 由 于 有 这 种 不 确定 性 , 再 加 上 一 般 普 遍 认为 尽管 普遍 存 
在 更 好 的 选择 ， 所 以 此 系统 调用 的 使 用 并 不 普遍 。 
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执行 成 功 时 ， 此 调用 会 返回 0， 执行 失败 时 ， 它 会 -1 并且 将 errno 设 定 成 适当 
的 错误 代码 。 在 Linux 上: ni Unix 系统 一 一 
sched_yield{) 不 能 执行 失败 ， 因 此 总 是 会 返回 0。 然而， 一丝 不 而 的 程序 设计 者 
或 许 仍 会 检查 返回 值 : 


if isched yield () 
Perror ("sched vield"}). 


合法 的 用 途 

实际 使 用 中 ，sched_yield() 在 适当 的 抢占 式 多 任务 操作 系统 《例如 Linux) 之 上 具 
有 阁 干 (如果 有 的 话 ) 合法 的 用 途 。 内 核 完 全 有 能 力作 出 理想 和 最 有 效 的 调度 决策 一 一 
当然 ， 相 较 于 个 别 的 应 用 程序 ， 内 核 有 更 好 的 装备 可 用 以 决定 如 何以 及 何 时 进行 抢占 
这 也 正 征 为 什么 操作 系统 会 放弃 协同 式 多 任务 而 支持 抢占 式 多 任务 。 


那么 ， 为 什么 我 们 会 有 一 个 “重新 调度 我 ”(reschedule me) 系统 调用 可 用 ? 答案 在 于 
立 用 程序 必须 等 待 外 部 事件 (也 许 是 由 用 户 .、 一 个 硬件 组 件 或 者 另 一 个 进程 所 造成 )。 举 
例 来 说 ， 如 来 一 个 进程 需要 等 待 男 一 个 进程 ， 则 “让 出 处 理 器 直到 另 一 个 进程 完成 ”是 
弟 一 个 阶段 的 解决 方案 。 再 举 一 个 例子 ， 在 consumer/producer (消费 者 /生产 者 ) 机 
制 中 ， 一 个 简单 的 consumer 实现 可 能 会 类 似 下 面 这 个 样子 : 


-:* Lhe consumer... 


do 1 
while (producer Tot_ready {1}) 
sched yielgd 【) ; 
process_data 1); 
} while 1!time_ to _ quit 【)) 


值得 庆幸 的 是 ，Unix 设计 者 不 会 动 辑 写 出 这 样 的 程序 代码 。Unix 程序 通常 是 事件 驱动 
的 (event-driven) 而 且 倾 向 于 在 consumer 与 producer 之 间 运 用 某 种 可 阻挡 的 机 制 ( 例 
如 一 个 管道 ) 来 代替 scheq_yield()。 在 此 情况 下 ，consumer 读 取 管道 并 在 需要 时 
被 阻挡 ， 直到 数据 可 供 读 取 。 接着 ， 亲族 据 灾 为 = producer 会 将 数据 写 人 管道 

这 会 将 协调 的 责任 从 用 户 空间 进程 移 往 内 核 , 用 户 空 间 进程 具 需要 进入 忙碌 循环 (busy- 
loop) ,而 内 核 则 可 以 通过 让 进程 进入 休 眼 状态 以 及 仪 在 有 需要 时 唤醒 它们 的 方式 让 此 情 
况 的 管理 得 以 优化 . 总之, Unix 程序 应 该 把 目标 放 在 依赖 可 阻挡 文件 描述 符 (blockable 
file descriptors ) 的 事件 驱动 解决 方案 上 。 


然而 ， 有 一 种 情况 需要 用 到 sched_yield{):; 用 户 空 间 线程 锁定 (user-space thread 
locking) 。 如 条 一 个 线程 企图 取得 另 个 线程 所 持 有 的 锁 ， 则 新 的 线程 应 该 计 出 处 理 器 
下 到 该 锁 变 为 可 用 。 用 户 空 间 锁 没有 内 核 的 支持 ， 这 是 一 个 最 简单 、 最 有 效率 的 做 法 。 
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值得 庆幸 的 是 ,现代 的 Linux 线程 实现 (New POSIX Threading Library 或 简写 成 NPTL) 
引入 了 一 个 使 用 furexes (为 用 户 空 间 锁 提供 内 核 的 支持 ) 的 优化 解决 方案 。 


另 一 种 情况 则 把 sched_yiela() 用 得 “恰到好处 ”(playing nicely) : 一 个 处 理 器 帘 
集 型 程序 可 以 周期 性 地 调用 sched_vyiela()， 试 图 将 它 对 系统 的 冲击 减 到 所 小 。 尽 
管 有 崇高 的 理想 ,但 是 它 的 策略 有 两 个 缺点 。 首 先 ， 内 核能 够 进行 全 局 的 调度 决 宁 ,这 
远 胜 于 个 别 进程 所 能 做 的 , 因此 确保 系统 顺利 运作 应 读 是 进程 调度 程序 的 责任 , 而 不 起 
进程 的 责任 。 为 此 提出 了 调度 程序 的 交互 奖惩 值 (bonus), 目的 是 为 了 奖 摧 WO 密集 型 
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说 ; “不 ! 请 安排 其 他 进程 ! ”此 状况 会 持续 到 这 两 个 进程 全 都 用 完 自己 的 时 间 上 厂 。 如 
果 我 们 把 进程 调度 程序 选取 进程 的 情况 绘制 成 图 表 , 会 看 到 类 似 “A、B、A、 B.A、B. 
这 样 的 现象 一 一 因此 会 以 “乒乓 球 ”为 名 。 

新 的 行为 可 避免 此 现象 。 进 程 A 要 求 让 出 处 理 器 ， 调 度 程序 就 会 把 它 从 可 运行 进程 列 
表 中 移 除 。 同 样 地 ， 进 程 B 作出 相同 的 请 求 ， 调 度 程序 就 会 把 它 从 可 运行 进程 列表 中 
移 除 。 调 度 程序 不 会 去 运行 进程 A 或 行程 B， 直 到 不 存在 任何 其 他 的 可 运行 进程 ， 这 
样 就 可 避免 “ 磊 乓 球 ” 现 象 ， 并 让 其 他 进程 公平 分 至 处 理 奏 上 时间。 


因此 ， 如 果 一 个 进程 要 求 让 出 处 理 器 ， 该 进程 就 应 该 真 的 把 处 理 器 让 出 来 ! 


进程 优先 级 


ed 、 





这 一 节 所 探讨 的 内 容 适 合 正 党 、 非 实时 的 进程 。 实 时 进程 需要 使 用 不 同 的 调度 规 
季 
WV 和 a 则 以 及 不 同 的 优先 级 系统 。 本 章 稍 后 会 探讨 实时 系统 的 相关 议题 。 






Linux 不 会 随意 对 进程 进行 调度 。 事实 上 ， 应 用 程序 会 被 指派 优先 级 ,优先 级 会 对 进程 
何 时 运行 以 及 运行 多 外 造成 影响 。 以 往 ，Unix 将 优先 级 称 为 友善 值 (nice value)， 因 
为 友善 值 背后 的 概念 是 通过 调 低 一 个 进程 的 优先 级 来 “善待 ”系统 上 的 其 他 进程 ， 这 让 
其 他 进程 可 以 使 用 较 多 的 处 理 器 时 间 。 


友善 值 可 控制 一 个 进程 何 时 运行 。Linux 会 按照 优先 级 (从 最 高 到 最 低 ) 的 顺序 来 对 可 
运行 进程 进行 调度 : 优先 级 较 高 的 进程 会 比 优先 级 较 低 的 进程 先 运行 。 友 善 值 还 可 以 控 
制 一 个 进程 的 时 间 片 大 小 。 


友善 值 的 有 效 范 围 从 - 20 到 19 《包括 - 20 和 19)， 而 且 默 认 值 为 0。 你 可 能 会 有 点 
困惑 ， 一 个 进程 的 友善 值 越 低 ， 则 它 的 优先 级 就 越 高 ,而且 它 的 时 间 片 也 越 大 ; 反 过 来 
说 ,友善 值 越 高 ， 则 进程 的 优先 级 越 低 ， 和 而且 它 的 时 间 片 也 越 小 。 因 此 调 高 一 个 进程 的 
友 普 值 束 竺 于 和 龙 人 善待 系统 上 的 其 他 进程 。 但 是 以 数字 来 看 的 确 令 人 混 请 。 当 我 们 说 一 个 
进程 具有 “高 优先 级 ”时 ,我 们 的 意思 是 说 ， 相 较 于 优先 级 较 低 的 进程 ， 调 度 程 序 会 更 
快 安排 它 运 行 ， 而 且 会 让 它 运行 更 长 时 间 。. 


nice() 


Linux 提供 了 若干 可 用 于 取得 以 及 设 定 进程 友善 值 的 系统 调用 .nicel) 是 其 中 最 简单 
的 一 个 ; 
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#include unista,.h> 


int nice (int inc}:; 


执行 成 功 ，nice() 会 使 用 inc 来 调 高 一 个 进程 的 友善 值 ， 而 且 会 返回 刚才 所 更 新 的 
值 。 只 有 具备 CAP_SYs_NICE 能 力 的 进程 (实际 上 就 是 root 所 拥有 的 进程 ) 可 以 对 
inc 提供 一 个 负 值 来 调 低 它 的 友善 值 ， 因 而 会 调 高 它 的 优先 级 。 因 此 ， 拥有 者 非 root 
的 进程 只 能 调 低 它们 的 优先 级 (通过 调 高 它们 的 友善 值 )。 


发 生 钳 误 时 ，nice{) 会 返回 -1。 然 而 ， 因 为 nice1() 会 巡回 新 的 友善 值 ， 所 以 -1 
也 是 执行 成 功 时 的 返回 值 。 为 了 有 所 区 别 , 调用 nice() 之 前 , 你 可 以 先 将 errno 清 
为 零 并 在 事后 检查 它 的 值 。 例 如 : 

int ret:; 

Errno = 0; 

ret = nice {10}; x+ 将 我 们 的 友善 值 调 高 10 */ 

if (ret == =1 && errno != 0) 

perror ("nice"): 


全 号 所 
printf ("nice value is Now Sd\n", ret):; 


发 生 错 误 时 ,Linux 只 会 返回 单一 错误 代码 EPERM, 这 表示 进行 调用 的 进程 调 高 了 它 的 
优先 级 〈 通 过 使 用 一 个 负 的 inc 值 ), 但 是 它 并 不 具备 CAP_SYS_NICE 能 力 。 当 放 入 
inc 的 友 警 值 超越 有 效 值 的 范围 时 ， 有 的 系统 还 会 返回 EINVAL,，, 但 是 Linux 不 会 。 
事实 上 ， 有 需要 时 ，Linux 会 将 无 效 的 inc 值 自动 调整 至 此 限度 所 允许 的 范围 之 内 。 
只 需 186 将 inc 设 为 0， 就 可 以 轻易 取得 当前 的 友善 值 ， 

printf ("nice value is currently %d\n", nice (01) 1) ; 
往往 一 个 进程 会 想 要 设 定 一 个 绝对 的 友善 值 , 而 不 是 设 定 一 个 相对 增加 的 友善 值 。 如 下 
的 程序 代码 可 以 完成 此 事 : 

int ret, wval:; 


/* 取得 当前 的 友善 值 */ 


val = nice (0}: 


/* 我 们 想 要 设 定 10 的 友 荐 值 */ 


val = 10 - wal: 

errno = 0: 

ret = nice tval):; 

if (ret == -1 && errno != 0) 


perror Il"nice™): 
它 ] Se 
printf ("nice value is now %Sd\n", ret},; 
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getpriority() 与 setpriority() 
一 个 更 好 的 解决 方案 就 是 使 用 getpriority1{) 与 setpriority() 系统 调用 ， 马 
们 提供 了 较 多 的 控制 能 力 ， 但 是 它们 的 操作 也 更 复 灯 : 


#include <BYS/time.h> 
#include <sys/resource.h> 


int getpriority (int which, int who);} 

int setpriority (int which, int who, int prio); 
这 两 个 调用 可 用 于 操作 进程 、 进 程 组 或 用 户 , 可 以 通过 which 和 who 来 指定 。 which 
的 值 必 须 是 PRIO_PROCESS、PRIO_PGRP 或 PRIO_USER 其 中 之 一 ， 人 在 此 情况 下 ， 
who 可 分 别 用 于 指定 进程 ID 、 进 程 组 ID 或 用 户 ID。 如 果 who 的 值 为 0， 则 此 类 调用 
可 分 别 用 于 操作 当前 的 进程 ID、 进程 组 ID 或 用 户 ID，。 


getpriority1{) 会 返回 指定 的 任何 进程 中 优先 级 最 高 者 (友善 伍 最 低 者 )。 而 
setpriority() 会 将 所 指定 的 任何 进程 的 优先 级 设 定 为 prio。 如 同 nice()， 只 
有 上 有 具备 CAP_SYS_NICE 能 力 的 进程 可 以 调 高 进程 的 优先 级 〈 调 低 友 普 值 )。 此 外 ， 只 
有 有 具备 此 能 力 的 进程 可 以 调 高 或 调 低 非 进 行 调用 的 用 户 所 拥有 的 进程 的 优先 级 。 
如 同 nice{)，, 发 生 错误 时 ,getpriority() 会 返回 -1。 因 为 执行 成 功 时 也 会 返回 
此 值 ， 如 果 程 序 设计 者 想 要 处 理 错误 情况 ， 则 进行 调用 之 前 ， 他 们 应 该 先 清 除 errno 
的 值 。setpriority() 并 没有 这 个 问题 ， 执 行 成 功 时 ，setpriority() 总 是 会 返 
回 0， 发生 错 误 时 ， 则 会 返回 -1。 
下 面 的 程序 代码 会 返回 当前 进程 的 优先 级 : 

ImL Yet: 


ret = getpriority 【PRID PROCESS, 0); 
nrintf ("nice value is %dqd\n", ret)}); 


下 面 的 程序 代码 会 将 当前 进程 组 中 所 有 进程 的 优先 级 设 定 成 10， 
int ret; 
ret = Setpriority (PRIO_PGRP， D0, 10); 


if {ret == =1) 
perror ("setpriority"y: 


发 让 错误 时 ， 这 两 个 函数 会 将 errno 设 定 成 下 面 的 其 中 一 个 值 ; 


EACCESS 
进程 试图 调 高 指定 进程 的 优先 级 ,但 是 并 不 具备 CAP_SYS_NICE 能 力 〈 仅 适用 
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setpriority!(}). 
EINVAL 
which 所 指定 的 值 并 非 PRIO_PROCESS,PRIO_PGRP 或 PRIC_USER 其 中 之 


EPERM 
所 指定 进程 的 有 效用 户 1D 与 正在 运行 的 进程 {running process) 的 有 效用 户 ID 并 
不 相符 ， 而 朋 正 在 运行 的 进程 并 不 具备 CAP_SYS_NICE 能 力 【 仅 运用 于 
setpriority!({) ),。, 

FESRCH 
找 不 到 与 which 和 who 所 提供 规则 相符 的 进程 。 


IO 优先 级 

除了 调度 优先 级 (scheduling priority) ，Linux 还 允许 进程 指定 WO 优先 级 。 此 值 会 影 
响 进 程 VO 请 求 的 相对 优先 级 。 内 楼 的 MO 调度 程序 (参考 第 四 章 ) 在 服务 来 日 IO 优 
先 级 较 低 进程 的 请 求 之 前 ， 会 先 服务 来 自 MO 优先 级 较 高 进程 的 请 求 。 


默认 情况 下 ，LO 调度 程序 会 使 用 进程 的 友善 值 来 确定 WO 优先 级 。 因 此 ， 设 定 友 普 全 
会 自动 变更 MO 优先 级 。 然 而 ，Linux 内 核 额外 提供 了 两 个 系统 调用 ， 可 用 于 显 式 设 定 
和 取得 与 友善 值 无 关 的 UO 优先 级 ， 

int ioprio get lint which, int who) 

int ioprio set {int which, int who, int ioprio) 
不 幸 的 是 , 内 核 尚未 导出 这 两 个 系统 调用 , 而 旦 gliibc 并 未 提供 任何 用 户 空 间 访问 接口 。 
没有 glibc 的 支持 ， 使 用 起 来 会 相当 嘛 烦 。 此 外 ， 等 到 8iibc 开始 支持 时 ， 其 所 提供 的 
接口 可 能 会 跟 这 两 个 系统 调用 有 所 不 同 。 开始 支 持 这 两 个 系统 调用 之 前 , 你 有 两 种 其 有 
可 移植 性 的 方法 可 用 于 操作 进程 的 WO 优先 级 ;经 友善 值 或 者 经 实用 程序 ,例如 iomice， 
它 是 util-linux 包 的 一 部 分 【证 2) 。 


并 非 所 有 的 WO 调度 程序 都 支持 WO 优先 级 。 特别 的 是 , 完全 公平 队列 Complete Fair 
Queuing ， 常 简写 为 CFQ) LO 调度 程序 就 支持 W/O 优先 级 ; 就 目前 而 言 ， 其 他 的 标准 
调度 程序 并 不 支持 WO 优先 级 。 如 果 当 前 VO 调度 程序 不 支持 WO 优先 级 ,它们 会 默默 
了 予以 忽 瞳 。 








注 之 ， WT-Uinux 包 可 以 在 hitip:Awwwkernelorg/pubAlinuxiatilsdatil-linux 找到 ，。， 它 证 授权 在 
GNU General Public License v2 之 下 ， 
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处 理 器 亲 和 性 

Linux 支持 有 具有 多 个 处 理 器 的 单一 系统 。 引 导 过 程 除外 ,支持 多 个 处 理 器 的 大 量 工作 由 
进程 调度 程序 负责 。 在 对 称 式 多 重 处 理 (symmetric multiprocessing， 常 简写 成 SMP) 
机 器 上 , 进程 调度 程序 必须 决定 每 个 CPU 上 要 运行 哪些 进程 。 有 两 项 挑战 源 目 此 贡 任 : 
调度 程序 必须 想 办 法 充分 利用 系统 上 的 所 有 处 理 器 ,因为 当 有 一 个 进程 已 就 绪 等 竺 运行 ， 
基 有 一 个 CPU 闲置 在 一 旁 ， 这 显然 没有 效率 。 


然而 ， 一 个 进程 一 旦 被 安排 在 某 个 CPU 上 运行 ， 往 后 进程 调度 程序 也 会 将 它 安排 在 相 
同 的 CPU 上 运行 。 这 是 有 益 的 ， 因 为 将 一 个 进程 从 一 个 处 理 器 迁移 (migrariag) 到 另 
一 个 处 理 器 是 要 付出 代价 的 。 


这 些 代 价 中 的 最 大 者 与 “迁移 的 缓存 区 效应 ”(ceache effect) 有 关 。 由 于 现代 SMP 系 
统 的 设计 ,与 每 个 处 理 器 相关 的 缓存 区 是 不 同 且 独立 的 。 也 就 是 说 ， 如 打数 据 位 十 一 个 
处 理 器 的 缓存 区 中 ,就 不 会 位 于 另 一 个 处 理 器 的 缓存 区 中 。 因 此 ， 如 果 一 个 进程 坡 移 往 
一 个 新 的 CPU ， 而 且 将 新 的 数据 写 信 内存， 那么 位 于 旧 CPU 缓存 区 中 的 数据 就 过 时 
广 。 现 在 若 使 用 该 缓存 区 ， 则 会 导致 数据 被 破坏 。 为 了 如 免 此 现象 ， 当 一 个 缓存 区 中 绥 
存 了 一 个 新 的 内 存 块 时 ， 这 会 让 其 他 每 个 缓存 区 中 的 数据 失效 。 因 此 , 任何 时 刻 特定 的 
一 段 数 据 只 能 出 现在 一 个 处 理 器 的 缓存 区 中 (假设 数据 金 都 被 缓存 起 来 )。 当 有 一 个 进 
程 从 一 个 处 理 器 移 往 另 一 个 处 理 器 时 会 因而 付出 两 种 代价 :被 移动 的 进程 无 法 访问 被 组 
存 起 来 的 数据 ， 而 且 位 于 原 处 理 器 缓存 区 中 的 数据 必须 作废 。 因 为 必须 付出 这 些 代价 ， 
所 以 进程 调度 程序 会 尽 可 能 为 一 个 进程 安排 特定 的 CPU 来 运行 它 。 


当然 , 进程 调度 程序 的 两 项 目标 可 能 会 无 法 实现 。 如果 一 个 处 理 器 的 进程 负荷 比 另 一 个 
处 理 器 大 很 多 (或 者 , 更 粳米 的 是 ， 如 果 一 个 处 理 器 处 于 忙碌 状态 ， 而 另 一 个 处 理 器 却 
采 置 在 一 旁 )， 明 智 的 做 法 是 对 一 些 进程 重新 调度 ， 让 它们 在 比较 不 忙 果 CPU 上 运行 。 
决定 何 时 移动 进程 以 啊 应 此 类 不 平衡 的 状态 称 为 负载 均衡 (oad palancing) ,这 对 SMP 
机 器 的 性 能 而 言 非常 重 业 。 


处 理 器 宁 和 性 (processor affinityv) 是 指 一 个 进程 被 -- 黎 地 安排 在 同 - 一 个 处 理 器 上 运行 
的 可 能 性 。 软 末 和 性 (soft affinity) 是 指 调度 程序 继续 安排 一 个 进程 在 同一 个 处 理 占 上 
运行 的 自然 倾向 。 正 如 我 们 所 作 的 讨论 ， 这 是 一 个 值得 利用 的 特性 。Linux 调度 程序 会 
尽 可 能 安排 相同 的 进程 在 相同 的 处 理 器 上 运行 ,而 及 只 会 在 负载 极 不 平衡 的 情况 下 将 -- 
个 进程 从 一 个 CPU 移 往 另 一 个 CPU 。 这 计 处 理 器 可 以 最 小 化 迁移 的 缓存 区 效应 , 但 是 
仍 能 确保 一 个 系统 中 所 有 处 理 器 的 负载 是 平衡 的 。 

然而 , 有 时 用 户 或 应 用 程序 会 想 把 进程 与 处 理 器 结合 在 一 起 。 这 是 因为 进程 具有 强烈 的 
缓存 区 敏感 性 ， 而且 想 停留 在 相同 的 处 理 细 上。 结合 一 个 进程 与 一 个 特定 的 处 理 絮 ，it 
内 核 按照 此 关系 行事 称 为 设 定 一 个 硬 亲 和 性 “(hard affinity)。 
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sched_getaffinity() 与 sched_setaffinity() 


进程 会 继承 其 父 进程 的 CPU 亲 和 性 ,默认 情况 下 ， 进 程 可 以 运行 在 任何 CPU 之 上 。 
Linux 提供 了 两 个 系统 调用 可 用 于 取得 和 设 定 一 个 进程 的 “ 硬 亲 和 性 ”， 

#define _GNU_ SOURCE 

#include <sched.h> 

typedef struct cpu set_t;} 

size_t CPU_ SETSIZE; 


void CPU_SET (unsigned long cpu, cpu set 七 et ) 
void CFU _ CLR (unsigned long cpu， CPU set t *aet); 
int CPU_ISSET (unsigned long cpu, Cpu_ set t *get); 
void CPU ZERO {cpu Bet 七 *aget); 


int sched setaffinity (pid t pid, size t Beteize, 
const cpu set t+ *pget), 


int sched getaffinity (pid t pid, size t setasize, 
CEU_ Set 七 *aet); 


sched_getaffinity() 可 用 于 取得 进程 piG 的 CPU 亲 和 性 ， 而 且 会 以 特殊 的 
cpu_set_t 关 型 来 仔 放 它 ， 这 可 通过 特殊 的 宏 来 访问 。 如 果 pid 的 值 为 0， 则 此 调 
用 会 取得 当前 进程 的 亲 和 性 。setsize 参数 是 cpu_set_t 类 型 的 大 小 ,为 了 配合 此 类 
型 大 小 未 来 的 变化 ，glibe 可 能 会 用 到 此 参数 。 执 行 成 功 时 ， sched_getaffinity!{() 
会 返回 0; 执行 失败 时 ， 它 会 返回 -1 并 且 设 定 errno。 请 看 下 面 的 例子 ， 


CDPU_Set_t set:; 
int ret, i: 


CP ZERV (&Set); 
ret = sched getaffinity (or sizeof {cpu_set t), 应 号 马 攻 ) ; 
1f (ret -S30 

Perror  {"sched getaffinity"). 


for (i = 0; 1 < CPUISETSTRE, ia Y 
iTnit cpu; 


CPU = CPU LSSET (i, &set): 
printf Wwemy sr Toe /hh 
CEU 2 set EE 
| 


进行 调用 之 前 ， 我 们 会 使 用 CPU ZzERO 将 set 中 所 有 位 都 清 零 。 然 后 我 们 会 从 0 到 
CPU_SETSIZE 迭代 处 理 set ,请 注音 , CPU _ SETmSTIZE 并 不 是 set 的 大 小 过 
对 不 应 该 把 它 传递 给 setsize， 而 是 set 所 可 能 表示 的 处 理 器 数目 。 因 为 当前 的 实 
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现 是 以 单一 位 来 表示 每 个 处 理 器 ,所 以 CPU_SETSIZE 会 比 sizeof(cpu_set_t) 大 
很 多 。 我 们 还 会 使 用 CPU_ISSET 来 检查 系统 中 特定 的 处 理 器 i ， 是 否 绑 定 (bound) 
或 未 绑 定 【unbound) 此 进程 。 如 果 返 回 0， 表 示 未 绑 定 ; 如果 返 回 非 零 什 ， 圾 示 绑 定 了 。 


系统 中 只 有 实体 的 处 理 器 会 被 设 定 。 因此, 车 在 一 个 具有 两 个 处 理 器 的 系统 上 运行 此 程 
序 代码 ， 将 产生 如 下 的 结果 


cpu=0 18 Set 
CPUuU=1 is Set 
CPUuU=a is unset 
CEU=3 1s UnNnset 


ee 1 Uniset 
如 同 此 输出 所 显示 的 ，CPU_SETSIZE (从 零 起 算 ) 的 值 当 前 是 1,024。 
我 们 所 关心 的 只 是 CPU #0 和 CPU #1， 因为 它们 是 此 系统 上 仪 有 的 实体 处 理 器 。 也 许 
我 们 想 确 保 我 们 的 进程 只 会 运作 在 CPU #0 之 上 ， 而 不 会 运作 在 CPU #1 之 上 。 下面 的 
程序 代码 可 以 完成 此 事 : 


CpuU_sSet_t set. 
int ret, 1:} 


CPU_ ZERO (&set); -+* 请 除 所 有 CPU */ 

CPU_ SET (0, &set); 1* 在 许 CPU #0 */ 

CEU_CLR (1, Eset); A* 持 || CPU #1 *y 

ret = sched setaffinity {0, sizeof (cpu set_t})}, kset): 
if {ret -1} 


perror l"sched setaftfinity"): 
for {1 = 0: 1 < CEU SETSIFR;: ij4+) If 

int cpu: 

CPU CEU_ISSET (dF &set}:; 


CPU pset' "wnset'"), 


-一 如 往 笛 , 首先 我 们 会 使 用 CPU_2zERO 将 set 清 零 。 然后 我 们 会 使 用 CPU_SET 设 定 
CPU #0 以 及 使 用 CPU_CLR 清除 CPU #] 。CEPU_CLR 操作 是 多 余 的 ， 因 为 我 们 刚刚 已 
经 将 整个 set 清 零 ， 这 么 做 只 是 为 了 完整 性 。 
同样 在 这 个 具有 两 个 处 理 器 的 系统 上 运行 此 程序 会 产生 与 之 前 稍微 不 同 的 输出 ， 

CEU=V ls sat 

CDU=1 is unset 


Cpu=2 LS WNnset 


CDU=1023 is unset 


3 
> 
jh 
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现在 ，CPU #1 会 被 清除 。 此 进程 只 会 运行 在 CPU #0 之 上 。 


errno 有 四 个 可 能 值 : 


EFAULT 
所 提供 的 指针 超出 了 进程 地 址 空间 的 兄 围 或 者 无 效 。 
EINVAL 


在 此 情况 下 ,set 中 并 未 启用 系统 上 的 实体 处 理 器 ( 仅 适用 于 scheqd_setaffinity1())， 
或 是 setsize 小 于 内 核 的 内 部 数据 结构 (用 于 表示 处 理 器 的 设 定 ) 的 尺寸 。 
EPERM 
进行 调用 的 进程 当前 的 有 效用 户 ID 并 未 拥有 Pia 所 关联 的 进程 , 而且. 读 进 程 并 
不 具备 CAP_SYS_NICE 能 力 。 
ESRCH 


找 不 到 pia 所 关联 的 进程 。 


实时 系统 

在 计算 机 领域 ， 实时 (real-time) 这 个 术语 往往 是 一 些 混 乱 和 误解 的 源头 。 一 个 实时 系 
统 必 须 服 从 操作 期 限 (operational deadline) : 激励 发 生 之 后 ， 必 须 在 预定 时 间 之 内 作 
出 响应 。 一 个 常见 的 实时 系统 就 是 几乎 所 有 现代 汽车 之 上 部 可 以 找到 的 防 死 山区 相 系统 
(anti-lock braking system， 常 简写 成 ABS)。 在 此 系统 中 ， 当 繁 车 被 中 下 时 ,计算 机 会 
调控 皱 车 压力 , 通常 是 每 秒 施 加 和 释放 最 大 煞车 压力 许多 次 。 这 可 以 防止 因为 车 轮 “ 被 
死 锁 ” 而 降低 停车 的 性 能 甚至 让 汽车 进入 无 法 控制 的 请 行 状态 。 在 这 样 的 系统 中 ， 操 作 
期 限 就 是 指 系统 响应 车 轮 被 死 锁 情况 的 速度 有 多 快 , 以 及 系统 施加 煞车 压力 的 速度 有 多 
Rs 


多 数 现代 的 操作 系统 ， 包 括 Linux， 都 会 对 实时 功能 提供 荣 种 程度 的 支持 。 


硬性 与 软 性 实时 系统 

实时 系统 分 成 两 类 : 硬性 和 软 性 。 一 个 硬性 实时 系统 需要 严格 遵守 操作 期 限 。 超 过 期 限 
便 失败 ， 而 且 是 一 个 重大 的 错误 。 另 一 方面 ,一 个 软 性 实时 系统 并 不 认为 逾越 期 限 是 一 
个 严重 的 失败 。 

硬性 实时 应 用 程序 很 容易 识别 ， 例 如 ; 防 死 锁 笋 车 系统 、 医 疗 装置 以 及 信号 处 理 。 软 性 


实时 应 用 程序 往往 不 容易 识别 , 视频 处 理应 用 程序 是 其 中 一 个 比较 明显 的 例子 : 如 果 错 
过 了 期 限 ， 用 户 会 意识 到 质量 变 差 ， 然 而 只 是 漏 掉 几 帧 夯 曾 是 可 以 忍受 的 ， 
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许多 其 他 的 应 用 程序 具有 时 序 约束 (timing constraint) ， 如 果 没 有 得 到 满足 ， 将 不 利于 
用 户 的 使 用 经 验 ， 例 如 :多 媒体 应 用 程序 、 游 戏 以 及 网 络 程序 。 然 而 ， 文 本 编辑 三 呢 ? 
如 果 程 序 无 法 快速 响应 按键 ， 就 是 一 个 精 粒 的 使 用 经 验 ， 这 会 让 用 户 感到 不 悦 或 挫败 。 
这 是 软 性 实时 应 用 程序 吗 ? 没 错 , 开发 者 在 编写 应 用 程序 时 , 已 经 意识 到 他 们 需要 及 时 
地 响应 按键 。 但 是 这 可 以 视 为 操作 期 限 吗 ?尽管 软 性 实时 应 用 程序 的 定义 不 一 而 足 , 但 
是 相当 明确 。 


与 普遍 的 概念 相反 的 是 ,一 个 实 上 时 系统 的 速度 未 必 快 。 的 确 , 针对 可 比较 的 硬件 ， 一 个 
实时 系统 的 速 庆 或 许 比 一 个 非 实 时 系统 还 偿 因为 如 果 什 么 都 没有 ， 支 持 实 时 进程 
络 要 增加 系统 的 开销 。 同样 地 , 硬性 与 软 性 实时 系统 的 划分 与 操作 期 限 的 长 短 无 关 。 检 
测 到 中 子 通 量 (neutron flux) 过 多 的 几 种 内 ， 若 SCRAM (紧急 停 妨 ) 系统 无 法 降低 
控制 棒 ,， 则 核子 反应 炉 (nuclear reactor) 将 出 现 过 热 的 现象 。 这 是 一 个 有 具有 “漫长 (就 
计算 机 而 言 ) 操作 期 限 的 硬性 实时 系统 。 反 过 来 说 , 一 个 视频 播放 器 可 能 会 跳 过 一 帆 夯 
面 或 是 让 声音 结 结巴 巴 , 如 果 它 不 能 在 100 毫秒 之 内 为 播放 缓 钟 区 重新 填 满 数据 的 话 。 
这 是 一 个 对 操作 期 限 有 严格 要 求 的 软 性 实时 系统 。 





延迟 、 抖 动 以 及 期 限 

延迟 (Jarency) 是 指 从 激励 (stimulus) 发 生 到 进行 响应 所 经 过 的 时 间 。 如 果 延 迟 小 于 或 
特 二 操作 期 限 ， 则 系统 可 以 正确 运作 。 在 许多 硬性 实时 系统 中 ， 延 壕 等 于 操作 期 限 一 一 
系统 会 定时 处 理 激 励 。 在 软 性 实时 系统 中 ,所 需要 的 啊 应 时 间 较 不 确切 ， 而 且 延 办 至 现 
出 很 大 程度 的 变化 一 一 目标 很 简单 ， 上 是 在 期 限 之 内 发 生 啊 应 。 


延迟 往往 很 难 测量 ， 因 为 它 的 估算 需要 知道 激励 发 生 的 时 间 。 然 而 ,为 油 励 记录 时 间 的 
能 力 往 往 取 决 于 响应 激励 的 能 力 。 因 此, 对 延迟 所 进行 的 许多 测量 所 误 量 到 的 往往 不 征 
延迟 ,事实 上 ， 所 测量 到 的 是 响应 之 问 在 时 序 上 的 差异 。 连 续 激 励 之 旧 在 时 序 上 的 差异 
称 为 抖动 (jitrer) 而 不 是 延 下 。 


举例 来 说 ,假设 一 个 激励 每 10 毫秒 发 生 … 次 。 为 了 测量 我 们 系统 的 性 能 ， 我 们 会 记录 
响应 的 时 间 以 确定 它们 每 10 毫秒 发 生 … 次 。 然 而 ,与 此 目标 值 的 过 寞 并 非 延 基 
是 拌 动 。 我们 所 测量 到 的 是 连续 响应 中 的 差异 。 如 果 不 知 道 激励 是 何 时 发 生 的 ,我 们 也 
无 法 知道 激励 与 响应 在 时 间 上 的 实际 差异 。 就 算 知 道 激励 每 10 毫秒 发 生 一 次 ,我们 仍 
旧 不 知道 第 一 次 是 何 时 发 生 的 。 或 许 令 人 惊讶 的 是 ,对 延迟 所 做 的 许多 测量 产生 了 这 个 
错误 ， 并 且 所 汇报 的 是 抖动 而 不 是 延迟 。 可 以 肯定 的 是 ， 抖 动 是 一 个 有 用 的 指标 
(metric)， 而 且 这 样 的 测量 工具 可 能 会 相当 有 用 。 然 而 ,我 们 必须 称 蝎 子 为 鸭子 1 
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en 现 非常 低 的 拉动 ， eda 在 一 一 个 确切 的 时 间 之 后 
二 hy 。 此 类 未 标 是 委 书 正 迟 等 于 操作 期 限 。 如 琳 延 迟 途 越 


期 限 ， 表示 系统 失败 。 
软 性 实时 系统 容易 受 拌 动 影响 。 在 这 些 系统 中 , 响应 时 间 理 想 情 况 下 是 在 操作 期 限 之 内 
一 一 常常 会 提前 很 多 , 但 有 时 不 会 。 因 此, 抖动 往往 是 延迟 的 最 好 替代 品 ,可 作为 性 能 


虽 标 (performance metric ) 。 





Linux 的 实时 支持 
Linux 经 IEEE Std 1003.1b-1993 ( 常 简写 成 POSIX 1993 或 POSIX.1b) 所 是 你 的 一 系 
列 系统 调用 为 应 用 程序 提供 了 软 性 实时 文 持 。 


从 技术 上 来 说 ，POSIX 标准 并 未 规定 所 提供 的 实时 支持 是 否 为 软 性 或 硬性 的 。 事实 上 ， 
所 有 POSIX 标准 实际 只 描述 了 几 个 与 优先 级 有 关 的 调度 策略 。 操 作 系 统 会 对 这 些 方 针 
实施 什么 样 的 时 间 限 制 则 是 OS 设计 者 的 责任 。 


这 些 年 来 ，Linux 内 核 已 获得 越 来 越 好 的 实时 支持 ,并 晶 提 供 越 来 越 低 的 延迟 以 及 更 一 
致 的 抖动 , 而 且 不 会 影响 系统 的 性 能 。 这 多 半 是 因为 改善 延迟 能 够 帮助 许多 类 型 的 应 用 
程序 , 例如 桌面 和 IO 密集 型 应 用 程序 , 而 不 只 是 实时 应 用 程序 。 会 有 这 样 的 改善 也 可 
以 归 因 于 Linux 在 髓 人 式 和 实时 系统 上 的 成 功 。 


不 幸 的 是 ， 许 多 对 Linux 内 核 所 进行 的 持 人 式 和 实时 修改 ， 仅 以 定制 的 Linux 解决 方 
案 存 在 着 ， 并 未 纳入 主流 的 正式 内 核 。 这 些 修改 中 有 些 可 以 进一步 减少 延迟 ,甚至 十 提 
供 硬 性 实时 的 行为 。 接 下 来 的 段落 只 会 探讨 正式 的 内 核 接口 以 及 主流 内 核 的 行为 。 符 运 
的 是 ， 大 部 分 的 实时 修改 仍 继续 利用 POSIX 接口 。 因 此 ， 随 后 的 讨论 还 是 跟 修 改过 的 系 
统 有 关 。 


Linux 的 调度 策略 与 优先 级 

Linux 调度 程序 对 一 个 进程 所 采取 的 行为 取决 于 该 进程 的 调度 策略 (Scheduling policy)， 
也 称 为 调度 类 (scheduling ctass)。 除 了 一 般 的 默认 策略 ，Linux 还 提供 了 两 个 实时 调 
度 策略 。 我 们 可 以 使 用 来 自 头 文件 <schea .nh> 的 预 处 理 器 宏 (preprocessor macro ) 
来 表示 每 个 策略 ， 这 些 宏 分 别 是 SCHED_FIFO、SCHED_RR 以 及 SCHED_OTHER 。 


aN (sratic priority)。 对 一 般 应 用 程序 
， 此 优先 级 值 往往 是 0。 对 实时 进程 而 襄 ， 此 优先 级 值 的 范围 可 以 从 1 到 99 ( 包 
1 和 99) 。Linux 调度 程序 往往 会 选择 让 优先 级 最 高 的 进程 (也 束 是 具有 最 大 静态 优 
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先 级 值 的 进程 ) 先 运行 。 如 果 一 个 正在 运行 的 进程 的 静态 优先 级 值 为 50， 而 且 有 一 个 
优先 级 值 为 $1 的 进程 变 为 可 运行 的 (runnable), 则 正在 运行 的 进程 会 立即 遭 旬 调度 程 
序 的 抢占 (插队 )， 而 且 切 换 到 新 的 可 运行 进程 。 反 过 来 说 ， 如 果 一 个 正在 运行 的 进程 
的 优先 级 值 为 50， 而 且 有 一 个 优先 级 值 为 49 的 进程 变 为 可 运行 的 ， 则 调度 程序 不 会 
运行 该 进程 ， 除 非 优先 级 值 为 50 的 进程 遭 到 阻挡 而 变 为 不 可 运行 的 。 因 为 一 般 进 程 的 
优先 级 值 为 60， 所 以 任何 可 运行 的 实时 进程 往往 会 抢占 一 般 的 进程 而 进入 运行 状态 。 


先入 先 出 策略 

先 人 先 出 (pirst in, first out， 常 简写 为 FIFO) 类 是 一 个 非常 简单 的 实时 策略 ， 不 需要 
羞 虑 时 间 片 的 问题 。 只 要 没有 优先 级 较 高 的 进程 变 为 可 运行 的 ,一 个 FIFO 类 的 进程 将 
可 继续 运行 下 去 。FIFO 类 可 以 使 用 宏 SCHED_FIFO 来 表示 。 


因为 此 策略 不 需要 考虑 时 间 片 的 问题 ， 所 以 它 的 操作 规则 相当 简单 ; 


。 一 个 可 运行 的 FIFO 类 的 进程 总 是 可 以 先 运 行 , 只 要 它 是 系统 上 优先 级 最 和 高 者 。 特 
别 是 ， 一旦 FIFO 类 的 进程 变 为 可 运行 的 ， 它 会 立即 抢占 一 般 的 进程 。 

* 一 个 FIFO 类 的 进程 会 继续 运行 下 去 ,除非 它 遭 到 阻挡 或 是 调用 了 schea_yield()， 
或 者 有 -一 个 优先 级 较 高 的 进程 变 为 可 运行 。 

. 当 一 个 FIFO 类 的 进程 遭 到 阻挡 时 , 调度 程序 会 把 它 从 可 运行 进程 列表 中 移 除 。 当 
该 进程 再 次 变 为 可 运行 的 时 , 该 进程 会 被 插入 (与 该 进程 的 优先 级 值 相 应 的 ) 进程 
列表 的 尾 端 。 因 此, 除非 有 任何 其 他 优先 级 较 高 或 相等 的 进程 停止 运行 , 否则 它 将 
不 会 运行 。 

。 ” 当 一 个 FIFO 类 的 进程 调用 sched_yield() 时 , 调度 程序 会 把 该 进程 移 往 (与 
该 进程 的 优先 级 值 相应 的 ) 进程 列表 的 尾 端 。 因 此 , 除非 有 任何 其 他 优先 级 相等 的 
进程 停止 运行 , 否则 它 将 不 会 运行 。 如 果 进 行 调用 的 进程 是 (与 它 的 优先 级 值 相应 
的 ) 进程 列 表 中 唯一 的 进程 ， 则 sched_vyield() 将 毫 无 作用 。 

. 当 一 个 优先 级 较 高 的 进程 抢占 一 个 FIFO 类 的 进程 时 ,这 个 FIFO 类 的 进程 会 继续 
留 在 (与 它 的 优先 级 值 相 应 的 ) 进程 列表 中 的 相同 位 置 上 。 因此, 一 旦 优先 级 较 高 
的 进程 停止 运行 ， 则 被 抢占 (插队) 的 FIFO 类 的 进程 会 继续 运行 下 去 。 

. 当 一 个 进程 成 为 FIFO 类 的 进程 时 ,或 者 当 一 个 进程 的 静态 优先 级 值 有 所 变动 时 ， 
它 会 被 摆 在 (与 它 的 优先 级 值 相应 的 ) 进程 列表 中 的 首 端 。 因 此, 一 个 刚 被 优先 考 
虚 的 FIFO 类 的 进程 可 以 抢占 一 个 具有 相同 优先 级 的 正在 运行 的 进程 。 

基本 上 , 我们 可 以 说 FIFO 类 的 进程 可 以 运行 到 它们 自己 满意 为 止 ,， 只 要 系统 上 没有 优先 

级 更 高 的 进程 。 以 上 的 规则 说 明了 优先 级 相同 的 FIFO 类 的 各 个 进程 之 间 会 发 生 什 么 事 。 


1% ak 





轮转 策略 
轮转 策略 (round-robin， 常 简写 为 RR) 类 如 同 FIFO 类， 不 过 RR 类 会 在 进程 共有 相 
同 的 优先 级 时 采用 额外 的 规则 。 宏 SCHED_RR 可 用 于 表示 此 类 。 


调度 程序 会 替 每 个 RR 类 的 进程 分 配 一 个 时 间 片 (timeslice)。 当 一 个 RR 类 的 进程 用 
完 它 的 时 间 片 时 , 调度 程序 会 把 该 进程 移 往 (与 该 进程 的 优先 级 值 相 应 的 ) 进程 列表 的 
尾 端 。 这 样 ， 具 有 相同 优先 级 的 RR 类 的 各 个 进程 将 按照 轮转 的 方式 被 调度 (这 位 可 俩 
保 它们 都 能 公平 分 配 到 CPU 时 间 )。 如 果 特 定 优先 级 上 只 有 一 个 进程 ， 则 RR 类 如 同 
FIFO 类 。 在 此 情况 下 ， 当 该 进程 用 完 它 的 时 间 片 后 ， 该 进程 仍 会 继续 执行 。 


我 们 可 以 把 一 个 RR 类 的 进程 视 为 一 个 FIFO 类 的 进程 ,除了 当 RR 类 的 进程 用 完 它 的 时 
间 片 后 便 会 停止 执行 ， 并 被 移 往 (与 该 进程 的 优先 级 值 相应 的 ) 可 运行 进程 列表 的 尾 曾 。 


至 于 要 使 用 SCHED_FIFO 还 是 SCHED_RR， 则 完全 是 内 部 优先 级 行为 (intra-priority 
behavior ) 的 问题 。RR 类 的 时 间 片 只 与 优先 级 相同 的 进程 有 关 。FIFO 类 的 进程 会 继续 
执行 到 它 满意 为 止 ，RR 类 的 进程 将 与 其 他 优先 级 相同 的 RR 类 的 进程 一 起 被 调度 。 无 
论 是 哪 一 种 情况 ， 只 要 存在 优先 级 更 高 的 进程 ， 优 先 级 较 低 的 进程 就 不 会 运行 。 


普通 策略 

宏 SCHED_OTHER 用 于 表示 标 淮 的 调度 策略 ， 默 认 的 非 实 时 类 。 每 个 普通 类 的 进程 
(normal-classed process) 的 静态 优先 级 值 芭 为 0。 因 此 , 任何 可 运行 的 FIFO 或 RR 类 
将 抢占 一 个 正在 运行 的 普通 类 的 进程 。 


调度 程序 会 使 用 稍 早 所 讨论 的 友善 值 , 按 优 先 次 序 排列 普通 类 型 的 进程 。 友善 值 不 会 受 
到 静态 优先 级 值 ( 值 为 0) 的 影响 ， 


批 处 理 调度 策略 

宏 SCHED_BATCH 用 于 表示 批 处 理 (barech) 或 空 交 (idle ) 调度 策略 。 它 的 行为 有 点 
跟 实 时 策略 相反 ， 当 系 统 上 没有 其 他 可 运行 进程 时 , 此 类 的 进程 才 会 运行 ， 即使 其 他 进 
程 已 经 用 完 它们 的 时 间 片 ,这 不 同 于 其 有 最 大 友善 值 的 进程 (也 就 是 优先 级 最 低 的 进程 ) 
的 行为 , 因为 这 样 的 进程 最 后 还 是 会 由 于 优先 级 较 高 的 进程 用 完 它 们 的 时 间 片 而 能 够 运 


行 。 


设 定 Linux 的 调度 策略 
进程 可 经 sched_getscheduler{) 以 及 sched_setscheadulerf) 来 操作 Linux 
调度 策 上 路 : 


a 
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#ijncljude <sched.hy> 


gtruct sched param 1{ 
Fr 
int sched priority; 
A 而 对 各 i 

}s 


int ached gaetscheduler {pid t pid); 


int sched setsascheduler (‘pid t piqd, 
int policy, 
const struct sched param *sp); 


一 次 成 功 的 sched_getscheduler() 调用 会 返回 pid 所 指定 的 进程 调度 策略 。 如 
果 pia 的 值 为 0， 则 此 调用 会 返回 进行 调用 的 进程 的 调度 策略 。<sched.h> 中 所 定 
勾 的 一 个 整数 可 用 于 表示 调度 策略 ， 先 人 先 出 方针 是 SCHED_FIFO， 循环 方针 是 
SCHED_RRs 一 般 方针 是 SCHED_OTHER。 发 生 错误 时 ， 此 调用 会 返回 -1 (这 绝对 不 
代表 一 个 有 效 的 调度 策略 ) 并 把 errno 设 定 为 适当 的 值 。 


它 的 用 法 很 谷 单 : 
int policy:; 


i* 取得 我 们 的 调度 策略 */ 


policy sched getscheduler (0).; 


awitch (policy)y { 
Case SCHED OTHER: 
printf tf"Policy is normal\n™y:; 
Preak: 
Case SCHED_ RER: 
printf {"Policy is round-robin\n"): 
break: 
Case SCHED_FIFO: 
Printft ("PoOlicYy 1s first-inry first-Out‘\n"); 
break; 


perror {sched getscheduler"y; 

break: 

default: 

fprintf (stderr, "Unknown policy! Mn"').: 


sched_setscheduler() 可 用 于 将 piq 所 指定 的 进程 调度 策略 设 定 为 policy。 
与 各 上 略 相 关 的 任何 参数 可 经 sp 来 设 定 。 如 果 pia 的 值 为 0， 则 所 设 定 的 是 进行 调用 
的 进程 的 策略 与 参数 。 执 行 成 功 时 ， 此 调用 会 返回 0， 执行 失败 时 ， 此 调用 会 返回 -1 
并 将 errno 设 定 为 适当 的 值 。 
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sched_param 结构 中 的 有 效 字 段 取 决 于 操作 系统 所 支持 的 调度 策略 。SCHED_RR 与 
SCHED_FIFO 策略 需要 用 到 一 个 字段 sched_priority (用 于 表示 静态 优先 级 值 )。 
SCHED_OTHER 不 会 用 到 任何 字段 ， 然 而 未 来 所 支持 的 调度 策略 可 能 会 用 到 新 的 字段 。 
因此 ， 具 有 可 移植 性 且 合 法 的 程序 不 应 该 假设 此 结构 的 布局 。 


一 个 进程 的 调度 策略 和 参数 的 设 定 很 容 复 : 
struct sched param sp = { .sched_ priority = 1 }: 


i1nNnt Tet; 


ret = sched_setscheduler IV, SCHED RR, &S8p):} 
if tret == -1]) 1 
perror ("sched_setscheduler"); 
return 1: 
} 
上 面 这 段 程序 代码 会 将 进行 调用 的 进程 的 调度 策略 及 静态 优先 级 值 分 别 设 定 为 轮转 类 型 
及 1。 此 处 ， 我 们 假设 1 是 一 个 有 效 的 优先 级 值 一 一 从 技术 上 来 说 ， 没 有 这 个 必要 。 
稍 后 我 们 将 讨论 如 何 替 特定 的 策略 找到 有 效 的 优先 级 值 范围 。 
设 定 SCHED_OTHER 以 外 的 策略 时 需要 具备 CAP_SYS_NICE 能 力 。 因 此 ， 一 般 只 有 


root 用 户 能 够 运行 实时 进程 。 从 2.6.12 版 内 核 开 始 ，RLIMIT_RTPRIO 资源 限制 可 让 
非 root 用 户 对 实时 策略 的 设 定 达到 特定 的 优先 级 上 限 。 


发 生 错 误 时 ，errno 会 被 设 定 为 下 面 的 其 中 一 个 值 ， 
EFAULT 

指针 sp 指向 了 一 个 无 效 的 或 无 法 访问 的 内 存 范 围 。 
EINVAL 


policy 指定 了 无 效 的 调度 策略 ， 或 者 sp 中 所 指定 的 值 对 policy 所 指定 的 调 
度 混 上 略 而 言 毫 无 惫 多 〈 仅 适用 于 sched_setscheduler({))。 


EPERM 
进行 调用 的 进程 并 不 具备 所 需要 的 能 力 。 
ESRCH 


pid 的 值 并 不 代表 一 个 正在 运行 的 进程 。 


设 定 调度 参数 
POSIX 所 定义 的 sched_getparam() 与 sSched_setbparaml) 接口 可 用 于 取得 并 
设 定 一 个 已 经 设 定 好 的 调度 策略 ; 
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#1include <Bcheda.h> 


struct sched param { 


Ps PP i 
int sched priority; 
Fi ss aaa wj 


}} 
int sched getparam (pid_t pid, struct sched param *sp)} 


int sched setparam {pid t+ pid, congt etruct sched param *gp}); 


sched_getscheduler() 接口 上 只 会 返回 调度 策略 ， 不 会 返回 任何 相关 的 参数 。 


sched_getparam() 则 会 经 sp 返回 与 Pida 相关 的 调度 参数 ， 


struct sched param sp; 
int ret; 


ret = Sched getparam i0, &sp): 

if {ret == -1) 1 
Perror bt"sched _ getparam"}).; 
return 1} 

1 


printf {Our priority is Sd\n", esp.sched priorityy: 


而 


如 果 pia 的 值 为 0， 则 此 调用 会 返回 进行 调用 的 进程 的 参数 。 执 行 成 功 时 ， 此 调用 会 


返回 0; 执行 失败 时 ， 它 会 返回 -1 并 将 errno 设 定 为 适当 的 值 。 


因为 sched_setschedulert{t) 也 可 以 设 定 任何 相关 的 调度 参数 ， 所 以 


sched_setparam() 只 在 事后 用 于 修改 人参 数值， 


struct sched_param sp; 
int ret: 


Sp .Sched priority = 1; 

ret = sched _ setparam (0, &sp}; 

IE {ret == -1) 1 
Berror ("sched setparam"}:; 
return 1; 


执行 成 功 上 时 ，piad 的 调度 参数 会 根据 sp 来 设 定 , 而 且 此 调用 会 返回 0， 执行 失败 时 ， 


此 调用 会 返回 -1 并 将 errno 设 定 为 适当 的 值 。 
如 未 我 们 依次 执行 前 面 两 段 程序 代码 ， 将 看 到 如 下 的 输出 ，: 


Our Priority is 1 


此 范例 中 ， 我 们 又 假设 1 是 一 个 有 效 的 优先 级 值 。 但 是 具有 可 移植 性 的 应 用 程序 应 该 
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要 伍 定 实际 的 有 效 优先 级 值 。 稍 后 我 们 将 探讨 如 何 决 定 有 效 的 优先 级 值 范 围 。 


错误 代码 
发 生 错 误 时 ，errno 会 被 设 定 为 下 面 的 其 中 -- 个 值 : 
EFAULT 
站 针 sp 指向 了 一 个 无 效 的 或 无 法 访问 的 内 存 范 围 。 
EIMNVAL 
sp 中 所 指定 的 值 对 policy 所 指定 的 调度 策略 而 言 完 无意 闵 ( 仅 送 用 于 


ssched_getparamt{})), 


EPERM 
进行 调用 的 进程 并 不 有 具备 所 需要 的 能 力 。 
ESRCH 


Pia 的 值 并 不 代表 一 个 正在 运行 的 进程 。 


决定 有 效 的 优先 级 值 范 围 
在 前 面 的 例子 中 , 我 们 将 固定 的 优先 级 值 传 递 给 与 调度 相关 的 系统 再 用 。POSIX 并 未 规 
定 一 个 系统 上 应 该 存在 哪些 调度 优先 级 值 ， 除 了 最 小 值 与 最 大 值 之 则 必须 至 少 存在 32 
个 优先 级 值 。 正 如 稍 早 在 “Linux 的 调度 策略 与 优先 级 值 ”一 节 所 述 ，Linux 为 两 种 实 
时 调度 策略 实现 了 范围 从 1 到 99 (包含 1 和 99) 的 优先 级 值 。 具 可 移植 性 的 程序 一 般 
会 实现 它 自 己 的 优先 级 值 范 围 , 并 和 且 把 它们 对 应 至 操作 系统 的 范围 。 举 例 来 说 ， 如 果 你 
想 以 四 种 实时 优先 级 级 别 来 运行 进程 ， 你 可 以 动态 决定 优先 级 值 的 范围 并 选 出 四 个 值 。 
Linux 提供 了 两 个 可 用 十 取得 有 效 优 先 级 值 的 范围 的 系统 调用 ,其 中 一 个 会 返回 最 小 值 ， 
六 一 个 会 返回 最 大 值 : 

#include <asched.h> 

int sched get priority min (int policoy);} 

int gched get priority max (int policy})} 
执行 成 功 时 ,sched_get_priority_min() [及 sched get_priority maxl|) 
会 分 别 返 回 与 policy 所 指定 的 调度 算法 相应 的 有 效 优 先 级 值 的 最 小 值 以 及 最 大 值 , 而 
且 都 会 迟 回 0。 热 行 失败 时 ， 这 两 个 调用 都 会 返回 -1。 唯 一 可 能 的 错误 是 ，policy 
被 指定 了 无 效 值 ， 在 此 情况 下 errne 会 被 设 定 为 ETNVRL。 
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0 


它们 的 用 潜 很 便 单 : 


int min, max; 
min = sched_get_priority_min (SCHED RR); 
if tmin ==s 一 { 
DeError lI"sched_get_priority_min") 
return 1; 
} 
max = sched_get priority _ max {SCHED_RR); 
if {max -1 芋 


perror {"sched get_ priority max") 


returmn 1; 


} 


printf ("SCHED_RR priority range 1S 和 日 = 


站 
EF 


嘲 
下 


$n", min, max): 


在 一 个 标准 的 Linux 系统 上 ， 这 段 程 序 代码 会 产生 如 下 的 结 未 : 


SCHEUD_RR priority range 1s 1 - 99 


如 稍 早 所 述 , 优先 级 值 越 大 代表 优先 级 越 高 。 要 赫 一 个 进程 的 调度 策略 设 定 最 高 的 优先 


级 ， 你 可 以 这 么 做 : 


站 三 


* set highest_priority 一 一 将 pia 的 调度 策略 的 优先 级 值 设 定 为 它 的 当前 调度 沫 略 


* 所 允许 的 最 高 值 。 如 果 pia 的 值 为 等， 则 设 定 当前 进程 的 优先 级 ， 


补 


* 执行 成 功 时 起 回 等 。 


wy 
int set_highest_priority {pid_t pid) 
{ 
struct sched param sp; 
int policy, max, ret; 
policy = sched getscheduler (pid}; 
itf tpolicy == -1} 


retLurn -1: 


max = schaed get_priority_max (policy}); 
if (max == -1) 
return 一 
memset (&Sp, 0, sizeof (struct sched _ param})},; 


sp.sched_ priority = 
ret = Sched_setpraram 


Ma 


(Did, &spl; 


Teturn Tet; 
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程序 一 般 会 取得 系统 的 最 大 值 或 最 小 值 ， 然后 使 用 1 的 增 量 【例如 max-1、 max-2 等 ) 
来 指派 所 需要 的 优先 级 值 。 


sched_rr_get_interval( 
如 稍 早 所 讨论 的 ，SCHED_RR 进程 的 行为 如 同 SCHED._FIFO 进程 ， 除了 调度 程序 会 
替 scCHED_RR 进程 指派 时 间 片 。 当 一 个 SC8ED_RR 进程 用 完 它 的 时 间 片 ， 调 度 程 序 
会 把 它 移 往 与 它 的 当前 优先 级 值 相 应 的 运行 列表 的 尾 端 。 这 样 , 具有 相同 优先 级 的 所 有 
scHED_RR 进程 会 以 轮转 的 方式 轮流 执行 。 优 先 级 较 高 的 进程 (以 及 优先 级 相同 或 较 高 
的 SCHED_FIFO 进程 ) 总 是 会 抢占 正在 运行 的 SCHED_RR 进程 ， 无 论 它 是 否 还 有 了 时 
间 片 尚未 用 完 。 
POSIX 定义 了 一 个 接口 可 用 于 取得 特定 进程 的 时 间 片 长 度 : 

#include <Bched.h> 


atruct timespec | 
time 七 tw_ Sec /* Becondas */ 
long ty nsec: /* nanoaeconds */ 


小 


int sched rr get interval {pid t pid, struct timespec *tp); 


执行 成 功 时 ，sched_rr_get_interval() 会 把 分 配给 pid 的 时 间 片 长 度 存 放 到 
tp 所 指 向 的 上 imespeec 结构 ， 而 且 会 返回 0， 执行 失败 时 ， 此 调用 会 运 回 -1 并 将 
errno 设 定 为 适当 的 值 。 


依据 POSIX, 此 函数 只 能 用 于 SCHED_RR 进程 。 然 而 , 在 Linux 上 , 它 可 以 取得 任何 
进程 的 时 间 片 长 度 ,。 具 可 移植 性 的 应 用 程序 应 该 假设 此 函数 只 能 用 于 SCHED_RR 进程 : 
Linux 特有 的 程序 可 依 需 要 利用 此 调用 。 下 面 古 一 个 例子 : 


struct timespec tp 
nt ret; 


/* 取得 当前 进程 的 时 间 片 长 度 */ 
ret = sched rr_aet_ijinterval (D0, gtp}; 
if ‘(ret == -1 1 
perror ("sched _ rr_get_interval"i}; 
return 1; 


/* 和 将 种 以 及 纳 秒 转换 成 毫 种 */ 
printf ("Our time guantum is .21t milliseconds\n", 
(Ep.tvy sec * 1000.0f) + (tp.tv_nsec / 1000000.0f)); 
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如 果 正 在 运行 的 是 FIFO 类 型 的 进程 ， 则 tv_sec 与 tv_nsec 的 值 皆 为 0， 表示 无 限 大 。 


错误 代码 
发 生 错 误 时 ，errno 会 被 设 定 为 下 面 的 其 中 一 个 值 ; 


EFAULT 


指针 tp 指向 了 无 效 或 无 法 访问 的 内 存 。 


EINVAL 


pid 指定 了 无 效 的 值 (例如 人 负 值 )。 


ESRCH 


尽管 pia 指定 了 有 效 值 ， 但 是 却 引 用 了 不 存在 的 进程 。 


实时 进程 的 预防 措施 

由 于 实时 进程 的 本 质 , 开发 者 在 开发 和 调试 此 类 程序 时 应 该 谨慎 行事 。 如 果 一 个 实时 程 
序 突然 发 脾气 (go off the deep end) ， 系 统 的 反应 会 变 得 迟钝 。 任 何 的 CPU 密集 型 循 
环 在 一 个 实时 程序 一 一 也 就 是 任何 不 会 被 阻挡 的 程序 代码 块 一 一 中 会 继续 无 止境 地 运 
行 下 去 ， 只 要 没有 优先 级 更 高 的 实时 进程 变 为 可 运行 的 。 


因此 , 设计 实时 程序 的 时 候 需 要 媚 慎 为 之 。 这 类 程 厅 至 高 无 上 , 可 以 轻易 拖 垮 整个 系统 。 
下 面 古 一 些 要 讨 与 注意 事项 : 


记 住 ,如 果 系 统 上 没有 优先 级 更 高 的 实时 进程 ， 则 任何 CPU 密集 型 循环 会 运行 到 
完成 为 止 ， 不 会 被 中 断 。 如 果 这 是 个 无 穷 循 环 ， 则 系统 的 反应 会 变 得 迟钝 。 
因为 实时 进程 运行 时 会 耗 用 系统 上 一 切 资源 , 所 以 必须 特别 注意 它们 的 设计 。 小心 
不 要 让 系统 其 他 进程 等 不 到 处 理 跨 时 间 。 

必须 非常 小 心 忙 碌 等 待 (busy waiting) 的 问题 。 如 果 一 个 实时 进程 忙碌 等 待 一 个 
优先 级 较 低 的 进程 所 把 持 的 一 个 资源 ， 则 实时 进程 将 永远 忙碌 等 待 下 去 。 

开发 一 个 实时 进程 的 时 修 , 让 一 个 终端 保持 开局 的 状态 , 以 更 高 的 优先 级 ( 相 较 于 
开发 中 的 进程 ) 来 运行 该 实时 进程 。 发 生 紧 急 状 况 时 , 终端 机 依然 会 有 反应, 允许 
你 终止 《kill) 失控 的 实时 进程 (因为 终端 机 依然 是 闲置 着 ， 等 待 键盘 的 输入 ， 所 
以 不 会 干扰 到 其 他 的 实时 进程 )。 

使 用 chrt 实用 程序 (util-linux 工具 包 的 一 部 分 ) 可 轻易 取得 和 设 定 其 他 进程 的 实 
时 属性 。 使 用 此 工具 可 轻易 执行 一 个 实时 调度 类 中 的 任何 程序 (例如 前 面 所 提 到 的 
终 问 机 ) 或 是 变更 现 有 应 用 程序 的 实时 优先 级 。 


eo 
bE 
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实时 进程 的 重要 性 在 于 决定 论 (determinism)。 在 实时 运算 中 , 行动 已 成 定论 : 如 来 给 
入 一 样 ， 则 所 花 的 时 间 一 样 ， 所 产生 的 结果 也 一 样 。 在 现代 的 计算 机 中 则 有 所 不 同 ， 内 
为 有 些 东 西 的 定义 已 经 完全 不 一 样 了 : 缓存 区 有 多 个 层次 (导致 命中 或 失误 的 不 可 预测 
性 )、 多 个 处 理 器 、 页 面 调度 (paging) 、 交换 (Swapping ) 的 
严重 破坏 了 特定 行动 需要 花 多 少时 间 的 可 估计 性 。 的 位 , 我 们 已 经 达到 了 每 个 行动 ( 硬 
盘 的 访问 除外 ) 都 “ 奇 快 无 比 ”的 地 步 ， 但 是 与 此 同时 ， 现 代 的 系统 也 让 oe 
估计 特定 操作 实际 要 花 多 少时 间 。 


一 般 来 说 ， 实 时 应 用 程序 往往 会 尝试 限制 不 可 预测 性 ,特别 是 情况 最 糟 的 延迟 。 接 下 来 
我 们 会 探讨 解决 此 类 问题 的 两 种 方法 ， 


预防 数据 出 错 以 及 锁 进 内 存 

想象 以 下 情况 : 定制 的 eormins ICBM (来 柳 洲 际 弹道 导弹 ) 监控 器 送出 硬件 中 断 ， 而 
生 访 设备 的 驱动 程序 会 巨 速 将 数据 从 硬件 复制 到 内 楼 ,驱动 程序 注意 到 有 个 进程 处 在 休 
眠 状态 , 因为 它 为 了 等 待 数据 而 被 硬件 的 设备 市 点 阻挡 , 驱动 程序 会 通知 内 核 去 哆 眼 该 
进程 。 内 核 一 一 注意 到 此 进程 的 运行 会 采用 一 个 实时 的 调度 绩 上 略 以 及 一 个 高 的 优先 级 
值 会 立即 抢占 当前 正在 运行 的 进程 并 且 进 入 高 速 束 运 转 , 决定 并 即 调 度 实时 进程 。 调 
讼 程序 会 切换 至 该 实时 进程 , 并 且 将 运行 环境 切换 至 它 的 地 址 空间 。 现在 这 个 进程 开始 
运行 了 。 整 个 过 程 需 要 0.3 ms， 特 合 最 差 的 情况 下 1 ms 的 延迟 上 限 。 





现在 ， 用户 空间 中 ,实时 进程 注意 到 来 袭 的 洲际 弹道 导弹 并 着 手 处 理 它 的 弹 童 。 根据 所 
计算 的 弹道 ， 实 时 进程 开始 部 署 一 个 反弹 道 导弹 系统 。 只 要 0.1 ms 的 时 间 就 是 以 部 署 
ABM (反弹 道 导弹 系统 ) 以 及 拯救 生命 。 但 是 一 一 哦 ,不 | 一 一 ABM 的 程序 代码 已 
经 被 交换 到 磁盘 。 发 生 了 页 面 失 误 ， 处 理 伺 会 切换 回 内 核 模 式 , 而 且 内 核 会 局 动 硬盘 的 
1/O 以 便 取 回 被 交换 出 的 数据 。 调 度 程序 会 让 该 进程 进入 休眠 状态 ， 直 到 了 页面 失误 狂 得 
服务 。 就 这 样 过 去 了 几 秒 钟 。 一 切 都 太 迟 了 。 


显然 ， 页 面 调度 以 及 交换 引入 了 相当 不 可 测定 的 行为 , 这 严重 地 破坏 了 实时 进程 的 可 预 

测 性 。 为 了 避免 此 浅 动 , 实时 应 用 程序 往往 会 esl 

内 存 ， 以 预防 它们 进入 内 存 时 出 错 并 避免 它们 被 换 出 (swapped out)。 这 些 页 面 被 

锁 进 内 存 ， 内 核 绝 不 会 将 它们 换 出 至 磁盘 。 不 全 去 导致 页 
面 出 错 。 多 数 实 时 应 用 程序 会 将 它们 的 部 分 或 全 部 页 面 锁 进 物理 内 存 。 


Linux 为 数据 的 预防 出 错 和 销 定 提供 了 接口。 第 四 带 曾 讨论 过 预防 数据 进入 内 存 时 出 错 
的 接口 ， 而 第 八 章 会 讨论 将 数据 锁 进 物理 内 存 的 接口 。 
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CPU 亲 和 性 以 及 实时 进程 

实时 应 用 程序 第 二 个 要 注意 的 是 多 任务 化 (multitasking) 问题 。 尽 管 Linux 内 核 是 可 
抢占 的 ,但 是 它 的 调度 程序 并 非 总 是 能 够 立即 重新 安排 一 个 进程 以 便 有 利 十 另 一 个 进程 。 
有 时候 ， 当 前 运行 的 进程 正在 内 棱 的 一 个 临界 区 (critical region) 中 运行 ,调度 程序 无 
法 抢占 它 , 除非 谍 离 开 旋 关 健 区 。 各 果 正 在 等 待 运行 的 进程 是 实时 进程 ， 这 样 的 延 : 迟 或 
许 是 不 可 接受 的 ， 因 为 马上 就 会 越 出 操作 期 限 


因此 , 多 任务 化 所 带 来 的 非 决 定论 (indeterminism) 本 质 上 类 似 于 页 面 调度 机 制 的 不 可 
质 测 性 。 多 任务 化 问题 的 解决 方案 也 是 一 样 的 : 消除 它 。 当 然 ， 你 可 能 无 法 消除 所 有 其 
他 进程 。 如 果 你 的 环境 可 以 这 么 做 ， 或 许 你 一 开始 就 不 需要 使 用 一 一 一 个 简单 的 自 定 
义 操作 系统 就 够 了 。 然 而 , 如 果 你 的 系统 具有 多 个 处 理 器 ， 你 可 以 让 你 的 实时 进程 专门 
使 用 其 中 一 个 或 多 个 处 理 器 。 实 际 上 ， 你 可 以 让 实 时 进程 以 开 多 任务 化 。 


本 章 稍 早 我 们 曾 讨论 过 用 于 操作 一 个 进程 的 CPU 亲 和 性 (affinity) 的 系统 调用 。 对 实 
时 应 用 程序 所 可 能 采用 的 -个 优化 手段 是 将 每 个 实时 进程 保留 一 个 处 理 器 ,并 让 所 有 共 
他 进程 以 分 时 的 方式 共享 其 余 的 处 理 器 。 


达到 此 目标 的 最 简单 做 法 就 是 修改 Linux 的 inif 程序 SysVinit ( 注 3)， 让 它 在 引导 进 
是 之 前 先进 行 如 下 的 工作 : 


CPU_SsSet_t Set,; 
int ret:; 


CPU_7RRO (1&SeL) | ji* 消除 所 有 CPU */ 
ret = sched getafflinity (0, sireof (cpu_set_t}, &set}),; 
if {ret == -1) 1 

perror ll"sched getaffinity"); 

return 1]; 


CPU_CLR {1, &set}: /+ 乓 用 CPU HI 去/ 

ret -~ schea setaffinitky {0, Slzeof (copy SeL Lt}, Sset}: 
i fret =s -1} 1 

error 1{"sched setaf?inity"y.: 


段 程序 代码 会 从 init 取得 当前 的 可 用 处 理 器 , 预期 是 所 有 的 处 理 器 。 然 后 从 中 移 除 一 
CPU #1 并 更 新 这 组 可 用 处 理 器 


注 3 SysVYinit 的 源 代 码 可 以 在 fip: APeISEFOnLUPDUApeppIemiguelAryAPIniE 技 到 。 它 受到 
QGNU 通 用 公共 许可 证 第 2 版 的 保护 ， 
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因为 子 进程 会 从 父 进程 处 继承 这 组 可 用 处 理 器 , 而且 init 是 所 有 进程 的 父 进程 , 所 以 系 
统 的 所 有 进程 将 运行 在 这 组 可 用 处 理 器 之 上 上。 因此， 没有 进程 会 运行 在 CPU #1 之 上 。 


接着 ， 修 改 你 的 实时 进程 ， 让 它 只 运行 在 CPU #1 之 上 ; 


CPU_Set_t set.; 


int ret: 

CPU ZERO {&Set}; +* 请 除 所 有 SPU */ 

CPU_SET (1, &5et); +-* 使 用 CPU #1 *)/ 

ret = sched setaffinity (0, silzeof (cpu set_t}, 下 号 后 万 
if {ret == -1) I 


perror ("sched setaffinity"}; 
Tetuyrn 1; 
| 
结果 你 的 实时 进程 只 会 运行 在 CPU #1 之 上 上， 而且 所 有 其 他 的 进程 会 运行 在 其 他 处 理 
器 之 上 。 


资源 限制 

Linux 内 核对 进程 加 上 了 若干 资源 限制 (resource limit)。 这 些 资源 限制 是 一 个 进程 所 
能 耗 几 的 内 核资 源 的 硬性 上 限 一 一 也 就 是 所 能 打开 的 文件 数目 、 内 存 页 面 的 数目 、 未 
决 信号 的 数目 等 。 这 些 限制 必须 严格 实施 ， 内 核 不 区 和 许 进 程 的 资源 耗 用 证 越 硬性 限制 。 
举例 来 说 ， 如 果 打 开 一 个 文件 将 导致 一 个 进程 所 打开 的 文件 数目 让 起 可 用 的 资源 限制 ， 
则 open (调用 会 失败 ( 注 4)，。 


Linux 提供 了 两 个 可 用 十 操纵 资源 限制 的 系统 调用 。 尽 省 POSIX 将 这 两 个 接口 纳入 了 
标准 ， 但 是 除了 标准 所 规定 的 限制 ，Linux 还 支持 一 些 其 他 的 限制 。 限制 的 恰 查 与 设 定 
可 分别 通过 getrlimit'() 与 setrlimit{) 来 进行 : 


#include <gvea/time.h> 
#include <aVYeB/reBource.hy> 


struct rlimit { 
rlim t rlim cur; /* goft limit 二 
rlim 七 rlim max; /* hard limit *)/ 
}; 
int getrlimit (int resgource, struct rlimit *rlim}); 
int setrlimit (int resgource, const struct rlimit *rlim); 


注 4: 在 此 情况 下 ,open 1) 会 把 errno 证 定 为 EMEFIDE, 指 出 进程 已 经 但 越 了 可 打开 交付 数 
目 的 资源 限制 。 参 见 第 二 和 章 中 对 opent) 系统 调用 所 做 的 讨论 。 
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整数 常量 , 例如 RLIMIT_CPU, 用 于 表示 资源 。r1imit 结构 用 于 表示 实际 的 限制 。 此 
结构 定义 了 两 个 上 限 值 : 软 性 限制 (sofr limit) 以 及 硬性 限制 (hard limit)。 内 核 会 对 
进程 实施 软 性 资源 限制 ， 但 是 一 个 进程 可 以 自由 将 它 的 软 性 限制 变更 成 “范围 从 0 到 
硬性 限制 的 ”任何 值 。 一 个 不 具 CAP_SYS_RESOURCE 能 力 的 进程 〈 也 就 是 任何 的 非 
root 进程 ) 只 能 调 低 它 的 硬性 限制 。 一 个 不 具 特 权 的 进程 无 法 调 高 它 自己 的 硬性 限制 ， 
其 至 无 法 调 回 至 之 前 的 较 高 值 ; 调 低 硬性 限制 的 行为 是 不 可 逆 的 。 一 个 具 特 权 的 进程 可 
以 将 硬性 限制 设 定 成 任何 有 效 值 。 


实际 的 限制 取决 于 所 针对 的 是 哪 种 资源 。 举 例 来 说 ,如 果 resource 是 RLIMIT_FSIZE， 
则 实际 的 限制 是 一 个 进程 所 创建 文件 的 尺寸 上 限 (以 字 节 计 )。 在 此 情况 下 ， 如 村 
rlim cur 是 1,024， 则 一 个 进程 创建 或 扩大 一 个 文件 时 ， 其 尺寸 不 得 大 于 1 KB。 


所 有 的 资源 限制 都 具有 两 个 特殊 值 : 0 以 及 无 限 大 (infinity ) 。 前 者 用 于 完全 茶 用 相应 
的 资源 。 举 例 来 说 ， 如 果 RLIMIT_CORE 被 设 为 0 ， 则 内 核 将 不 会 创建 core 文件 。 愉 
过 来 说 , 后 者 会 移 除 资源 上 的 任何 限制 .内 核 是 通过 RLIM_INFINITY 这 个 特殊 值 ( 它 
恰巧 就 是 -1， 这 可 能 会 导致 一 些 混乱 ， 因 为 返回 值 也 是 以 -1 来 指出 错误 ) 来 表示 无 
限 大 。 如 果 RLIMIT_CORE 是 无 限 大 ， 内 核 将 会 创建 任何 大 小 的 core 文件 。 


函数 getrlimit () 会 将 特定 资源 (由 resource 指定 ) 上 当前 的 硬性 和 软 性 限制 放 
进 rlim 所 指向 的 结构 。 执 行 成 功 时 ， 此 调用 会 返回 0; 执行 失败 时 ， 此 调用 会 运 回 
-1 并 和 将 errno 设 定 成 适当 的 值 。 


相应 地 ， 国 数 setrlimit() 会 将 与 resource 相 甘 的 硬性 和 软 性 限制 设 定 成 1 im 
所 指向 的 值 。 执 行 成 功 时 ， 此 调用 会 迟 回 0; 而 且 内 核 会 更 新 所 要 求 的 资源 限制 ;执行 
失败 时 ， 此 调用 会 返回 -1 并 将 errno 设 定 成 适当 的 值 。 


提供 了 哪些 限制 
Linux 当前 提供 了 15 种 资产 限制 : 


RLIMIT_AS 
一 个 进程 的 地 址 空间 的 大小 上 限 ， 以 字 布 为 单位 。 试 图 通过 mmap() 及 brk1() 
之 类 的 调用 增加 地 址 空间 的 大 小 ， 让 它 逾 越 此 限制 ， 将 导致 失败 以 及 返回 
ENOMEM。 如 果 进 程 的 堆栈 (会 按 需要 自动 增长 ) 扩大 时 逾越 此 限制 ， 内 核 会 传 枯 
SIGSEGV 信和 号 给 该 进程 。 此 限制 通常 为 RLIM_INFINITY。 

RLIMIT_ CORE 
core 文件 的 大 小 上 限 ， 以 字 节 为 单位 。 如 果 为 非 零 值 ， 则 当 core 文件 大 于 此 限制 
时 会 被 截 短 成 上 限 值 ， 如 果 值 为 0， 则 不 会 创建 core 文件 。 


208 第 六 章 





RLIMIT (CPU 
一 个 进程 可 耗 用 的 CPU 时 间 的 上 限 , 以 秒 为 单位 。 如 果 一 个 进程 的 运行 时 间 逾 越 
此 限制 ， 则 内 核 会 传送 STGXCPU 信号 给 它 ， 让 它 能 够 加 以 捕 提 和 处 理 。 具 可 移 
植 性 的 程序 收 到 此 信号 时 应 读 终 止 运行 , 因为 POSIX 并 未 规定 内 核 接 下 来 该 来 取 
何 种 行动 。 有 些 系 统 可 能 会 终止 该 进程 ， 如 果 它 想 要 继续 运行 下 去 的 话 。 然 而 ， 
Linux 会 允许 进程 继续 运行 下 去 ， 并 且 以 1 各 的 时 间 间 隔 持续 送出 STGXCPU 信 
号 。 一旦 进程 的 运行 时 间 逾 越 了 硬性 限制 ， 它 会 收 到 SIGKILL 信号 并 且 终 止 运行 。 
RLIMIT DATA 
一 个 进程 的 数据 段 (data segment) 与 堆 (heap) 的 上 限 ， 以 字 节 为 单位 。 试 图 通过 
brk() 扩大 数据 段 的 大 小 ， 让 它 和 逾越 此 限制 ， 将 导致 失败 以 及 返回 ENOMEM。 
RLIMIT FSITAE 
指定 一 个 进程 所 能 创建 的 文件 的 大 小 上 限 , 以 字 节 为 单位 。 如果 进程 扩大 一 个 文件 
的 大 小 ,让 它 傅 越 此 限制 ， 则 内 核 会 传送 SIGXFSz 信号 给 该 进程 。 上 默认 情况 下 ， 
此 信号 会 终止 该 进程 ,然而 ,一 个 进程 可 能 会 选择 桶 氛 并 处 理 此 信号 ,在 此 情况 下 ， 
系统 调用 会 失败 并 返回 EFBIG。 
RLIMLT LOCKS 
-个 进程 所 能 持 有 的 文件 锁 的 数目 上 限 (参见 第 七 章 中 对 文件 锁 所 做 的 讨论 )。…- 
晶 参 越 限 制 , 车 想 再 获得 其 他 的 文件 锁 应 该 会 失败 并 且 返 回 ENOLCK。 然 而 ,Linux 
内 棱 2.4.25 版 已 删 掉 了 此 功能 。 在 当前 的 内 核 里 ， 此 限制 是 可 设 定 的 ， 但 是 毫 无 
RLIMIT MEMLOCK 
指定 一 个 不 具 CAP_SYS_IPC 能 力 的 进程 (也 就 是 一 个 非 root 的 进程 ) 最 多 可 经 
mlockt). mlockall() 或 snmct11{) 将 几 个 字 节 锁 进 内 存 。 如 果 此 限制 被 请 
越 了 ， 会 导致 这 些 调用 失败 并 且 返 回 EPERM。 在 实践 中 ， 有 效 的 限制 将 会 是 页 面 
大 小 的 整数 倍 。 具 CaP_SYS_IPC 能 力 的 进程 可 以 将 任何 数目 的 页 面 锁 进 内 存 ， 
于 是 此 限制 毫 无 作用 。 在 内 核 2.6.9 版 之 前 ， 此 限制 是 具 CAP_sYs_IPC 能 力 的 
进程 可 以 锁 进 内 存 的 页 面 数目 的 上 限 , 而且 不 具 特 权 的 进程 不 能 锁 进 任何 页 而 。 此 
限制 并 非 POSIX 的 一 部 分 ，BSD 引进 了 此 限制 。 
RLIMIT_ MSGQOUEUE 
指定 一 个 用 户 最 多 可 替 POSIX 消息 队列 分 配 多 少 个 字 节 。 如果 一 个 新 创建 的 消息 
队列 靖 越 了 此 限制 , 则 mq_open() 会 失败 并 且 返 回 ENOMEM ,此 限制 并 非 POSIX 
的 一 部 分 ， 它 是 在 2.6.8 版 加 入 内 核 的 ， 而 且 古 Linux 特有 的 限制 。 


RLIMIT_NICE 


指定 一 个 进程 最 多 可 将 它 的 友善 值 调 到 多 低 (也 束 是 将 优先 级 凋 到 多 高 )。 如 同 本 
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章 稍 早 所 讨论 的 ,一 般 进 程 只 能 调 高 其 友善 值 (也 就 是 调 低 其 优先 级 )。 此 限制 让 
管理 者 得 以 替 进 程 调 高 其 优先 级 的 操作 加 上 上 限 (也 就 是 友善 值 的 下 限 )。 由 于 友 
善 值 可 能 是 负 的 ， 内 核 会 将 此 值 解 译 成 20 - rlim_cur。 因 此 ， 如 果 此 限制 被 
设 定 成 40, 则 一 个 进程 可 以 将 它 的 友善 值 调 低 至 上 限 值 一 20 (最 高 的 优先 级 )。 此 
限制 是 在 2.6.12 版 加 入 内 核 的 。 

RLIMIT NOFILE 
指定 一 个 进程 所 能 打开 的 文件 描述 符 数 目的 上 限 。 试 图 逾越 此 限制 会 导致 系统 调用 
失败 并 且 返 回 EMFILE。 此 限制 还 可 被 指定 成 RLIMIT_OFILE ， 这 是 BSD 所 取 
的 名 称 。 

RLIMIT NPROC 
指定 任何 时 刻 用 户 在 系统 上 所 能 运行 的 进程 数 日 的 上 限 。 试 图 逾越 上 比 限 制 将 导致 失 
败 ， 而且 fork() 会 返回 EAGAIN。 此 限制 并 非 POSIX 的 一 部 分 ， 这 是 BSD 3 

RLIMIT_RSS 
指定 一 个 进程 在 内 存 中 所 能 驻 留 的 页 面 数 日 (所 谓 的 resident set size 或 RSS) 的 
上 限 。 只 有 早期 的 2.4 版 内 核 会 实施 此 限制 。 虽 然 当前 的 内 核 版 本 允许 设 定 此 限 
制 ， 但 是 并 未 实施 。 此 限制 不 是 POSIX 的 一 部 分 ， 这 是 BSD 引进 的 。 


RLIMIT_RTPRIO 
指定 一 个 不 具 CAP_SYS_NICE 能 力 的 进程 (也 就 是 非 root 进程 ) 所 能 请 求 的 实 
时 优先 等 级 的 上 限 。 一 般 而 言 , 不 具 特 权 的 进程 无 法 请 求 任 何 的 实时 调度 类 。 此 限 
制 不 是 POSIX 的 一 部 分 ， 它 是 在 2.6.12 版 加 入 内 核 的 ， 而 且 是 Linux 特有 的 限 
制 。 

RLIMIT SIGPENDING 
指定 枪 此 用 户 在 队列 中 所 暂 存 的 ( 标 崔 以 及 实时 ) 信号 数目 的 上 限 。 试 图 在 队列 中 
暂 存 更 多 的 信号 将 导致 失败 ,而且 sigqueue() 之 类 的 系统 调用 会 返回 EAGRAIN。 
注意 , 总 是 有 不 顾 此 限 制 , 在 队列 中 暂 存 “尚未 排 入 队列 的 信号 ”{not-yet-queued 
signal) 的 一 个 实例 。 因 此 ， 总 是 有 可 能 传送 SIGKILL 或 SIGTERM 信号 给 进 
程 。 此 限制 不 是 POSIX 的 一 部 分 ， 它 是 Linux 特有 的 限制 。 

RLIMIT STACK 
一 个 进程 的 堆栈 太 小 的 上 限 , 以 字 市 为 单位 。 靖 越 此 限制 会 导致 传送 SIGSEGYV 信 
号 。 

内 核 会 替 每 个 进程 管理 资源 限制 。 一 个 子 进程 会 在 其 父 进程 派生 (fork) 期 间 继承 其 父 进程 的 

限制 ， 限制 的 维护 可 以 跨 exec。 
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默认 限制 

尔 的 进程 所 能 使 用 的 默认 限制 取决 于 三 个 变量 : 初始 的 软 性 限制 .初始 的 硬性 限制 以 及 
你 的 系统 管理 者 。 内 核 所 规定 的 初始 硬性 和 软 性 限制 如 表 6-1 所 示 。 内 核 会 在 init 进 
程 上 设 定 这 些 限制 , 而 且 因为 子 进程 会 继承 其 父 进程 的 限制 , 所 以 所 有 随后 的 进程 都 会 
继承 init 的 软 性 和 硬性 限制 。 


表 6-1: 默认 的 软 性 和 硬性 资源 限制 


资源 限制 
RLIMIT_AS 
RLIMIT_CORE 
RLIMIT CPU 
RLIIMIT_DATA 
RLIMIT_FSIZE 


RLIMIT_ LOCKS 


RLIMIT MEMDLOCK 
RLIMIT MSGOUEUE 


RLIMIT_NICE 
RLIMIT NOFILE 
RLIMIT NPROLC 


RLIMIT_RSS 


软 性 限制 
RLIM_INFINITY 
0 
RLIM_INFINITY 
RLIM_INFINITY 
RLIM_INFINITY 
RLIM_INFINITY 
8 个 页 面 

800 KB 

0 

] O24 

0 (表示 无 限制 ) 


RLIM_INFINITY 


硬性 限制 
RLIM_INFINITY 
RLIM_INFINITY 
RLIM_INFINITY 
RLIM_INFINITY 
RLIM_INFINITY 
RLIM_INFINITY 
8 个 页 面 

800 KB 

日 

1]024 

0 《表示 无 限制 ) 


RLIM INFINITY 


RLIMIT_RTPRIO 0 0 
RLIMIT_SIGPENDING 0 0 
RLIMIT_STACK 8 MB RLIM_INFINITY 
两 件 事 会 改变 这 些 软 认 限 制 


* 任何 进程 可 以 目 由 将 一 个 软 性 限制 增加 成 “范围 从 0 到 硬性 限制 的 ”任何 值 ， 或 
者 减少 一 个 硬性 限制 的 值 。 派 生 期 间 ， 子 进程 将 继承 这 些 更 新 过 的 限制 。 

。 ”一 个 有 具 特 权 的 进程 可 自由 将 一 个 硬性 限制 设 定 成 任何 值 。 派 生 期 间 , 子 进程 将 继承 
这 些 更 新 过 的 限制 。 

在 一 般 进 程 中 不 太 可 能 出 现 一 个 root 进程 来 变更 任何 硬性 限制 。 因 此 ， 相 较 于 第 二 件 

事 ， 第 一 件 事 比较 有 可 能 成 为 限制 被 变更 的 原因 。 事 实 上 ， 实 际 提供 给 一 个 进程 的 限制 

通常 设 定 自用 户 的 shell， 系 统管 理 者 可 通过 shell 设置 所 要 提供 的 各 种 限制 。 举 例 来 

说 ， 在 Bourne-again shell (bash) 中 ， 管 理 者 可 经 ulimii 命令 完成 此 事 。 请 注意 ， 管 
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理 者 不 需要 将 值 调 低 , 他 也 可 以 将 软 性 限制 调 高 至 硬性 限制 , 给 用 户 提 供 较 合理 的 默认 
值 。 在 许多 系统 中 RLIMIT_STACK 往往 会 被 设 定 成 RLIM_INFINITY。 


设 定 与 取得 限制 
解释 过 各 种 资源 限制 之 后 , 让 我 们 来 看 看 如 何 取得 与 设 定 限制 。 资源 限制 的 取得 相当 简 
单 : 

struct rlimit rlim; 

int ret; 


/* 取得 core 文件 大 小 的 限制 */ 
ret = getrlimit (RLIMIT_CORE, &rlim):; 
if tret == -1) 1 

perror ("getrlimit"}; 

return 1; 


} 


printf ("RLIMIT_CORE limits: sott=$%]d hard=%1ld\n", 
rlim,rlim cur, rlim.rlim maxl; 


在 一 个 较 大 型 的 程序 中 编译 这 段 程序 代码 并 且 运行 它 ， 会 产生 如 下 的 输出: 
RLIMIT_CORE J]imits: soft=0 hard=-1 


我 们 所 看 到 的 软 性 限制 为 0， 而 硬件 限制 为 无 限 大 (-1 表示 RLIM_INFINITY)。 国 
此 ,我 们 可 以 将 新 的 软 性 限制 设 定 为 任何 值 。 此 例 将 core 文件 的 最 大 值 设 定 为 32 MB : 


struct rlimit rlim; 
1 用 二 Iet: 


rlim,rlim cur = 32 * 1024 * 1024; /* 32 MB */ 
rlim.rlim max = RLIM_ INFINITY: A* 了 听 基 自然 */ 
ret = Setrlimit (RLIMIT CORE, &rlim):; 
if (ret == = ) 4 

PeError ("setrlimit")' 

return 二; 


销 误 代码 
发 和 后 错误 时 ，errne 会 被 设 定 成 下 面 的 其 中 一 个 值 : 
EFAULT 

rlim 指向 了 无 效 或 不 可 访问 的 内 存 。 
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ELNVAL 
resource 指定 了 无 效 的 值 ,或 者 rlim.rlim_cur 太 于 lim.rlim max( 只 
适用 于 setrlimitt{))。 

EPERM 


调用 者 趟 具 CAP_SYS_RESOURCE 能 力 ,， 但 是 试图 调 高 硬性 限制 。 
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在 第 二 草 、 第 三 章 以 及 第 四 章 中 ,我 们 详细 探讨 了 文件 IO 的 接口 。 本 省 中 ， 我 们 将 下 
次 回 到 文件 的 议题 , 但 是 这 一 次 的 重点 并 非 文 件 的 读 取 或 写 和 人 操作, 而 是 文件 与 其 元 数 
据 的 操作 与 管理 。 


文件 与 其 元 数据 


如 第 一 章 所 探讨 的 ， 每 个 文件 是 通过 一 个 inode (信息 节点 ) 被 引用 的 ,对 文件 系统 而 
言 这 征 一 个 独一无二 的 数值 ， 也 就 是 所 谓 的 inode number (信息 节点 编号 )。inode 既 
是 一 个 实际 的 对 象 (被 放 在 磁盘 上 Unix 风格 的 文件 系统 中 ), 也 是 一 个 概念 性 实体 (由 
Linux 内 核 里 的 一 个 数据 结构 来 表示 )。inode 可 用 来 存储 与 某 个 文件 有 关 的 元 数据 , 例 
如 文件 的 使 用 权限 、 上 一 次 的 访问 时 间 发 . 押 有 者 . 组 . 长 度 以 及 文件 内 容 的 摆 放 信和 置 。 


对 ls 命令 使 用 -i 标志 可 以 取得 文件 的 inode number. 


S$ I 

16989459 Koconf ig 10689461 main,c 1680144 Process ca 1689464 swsusp.c 
1680137 Makefilie 1680TA] pmice 1880145 smp .te 168BO0149 User.c 
1680138 console.c 1689462 powear.h 1b894563 snapshot .ce 

1689469 digsk.s 1680143 poweroffc 1680147 ewap,e 


如 此 输出 所 示 ，disk.c 的 inode number 为 1689460。 在 这 个 特别 的 文件 系统 上 ， 不 会 
有 其 他 文件 具备 此 inode number。 人 然而 ， 在 不 同 的 文件 系统 上 ， 我 们 就 无 法 保证 了 。 


stat 系列 函数 
Unix 提供 了 一 系列 的 函数 可 用 于 取得 文件 的 元 数据 ， 


#include <sys/types.h> 
#include <sye/stat.hy> 
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214 


入 
CY 
二 


#include <unistd.hs> 


int stat (const char *path, struct stat *buf)}):; 
int fgtat (int fqd, struct stat *buf}),; 
int latat (congt char *path, gstruct etat *buf); 


这 些 函 数 都 会 返回 与 文件 有 关 的 信息 。stat () 会 返回 path 所 代表 文件 的 相关 信息 ， 
而 fstat {) 会 返回 文件 的 述 符 fd 所 代表 文件 的 相关 信忠。 lstat () 如 同 stat ()， 
除了 关于 符号 链接 的 情况 : 1stat () 所 返回 的 是 关于 链接 本 身 (而 非 目 标 文 件 ) 的 信 


昌 .。 


这 些 国 数 都 会 将 信息 和 存 人 一 个 stat 结构 (由 用 户 提 供 )。stat 结构 定义 于 <bits/ 
stat.h>， 可 以 从 <svsystat.h> 来 引用 它 : 


Btruct stat { 


dev 七 st dev; /* ID of device containing file */ 
ino t st linos /:* incode number */ 

mode 七 st mode; /* permisgions */ 

nlink 七 at nlink; /i* Nnumber of hard links */ 

uid t+ st uid;y /* USEer ID of owner */ 

gid 七 sat _ gid; /i* group ID of owner */ 

dev 七 st rdev:; /* device ID (if special file}y */ 
off t st size; :* total size in bytes */ 


blkaize t st blksize; /* blockaize for filesyetem I/O */ 
blkcnt _t et blockas; /:* number of blocks allocated */ 


time 七 Bt atime; /* last accege time */ 
time 七 st mtime; /* last modification time */ 
time 七 gt ctime; /* lagt status change time */ 
于; 
此 结构 的 字段 细节 如 下 所 述 ， 


st_dev 字段 描述 了 包 舍 文 件 的 设备 节点 《本 章 稍 后 会 说 明 设备 节点 )。 如 果 文 件 的 
背后 不 是 一 个 设备 一 例如， 文件 位 于 经 NFS 挂 载 的 文件 系统 ， 则 此 值 为 0。 


st_ino 字段 提供 了 文件 的 inode number。 

st_mode 字段 提供 了 文件 的 模式 字 市 ,第 一 章 和 第 二 章 说 明了 模式 字 节 与 权限 位 。 
st_nlink 字段 提供 了 指向 文件 的 硬 链 接 数 目 。 每 个 文件 至 少 都 会 有 一 个 硬 链接 。 
st_uid 字段 提供 了 拥有 文件 的 用 户 的 用 户 ID，。 

st_gid 字段 提供 了 拥有 文件 的 组 的 组 ID 。 

如 果 文 件 是 一 个 设备 节点 ， 则 st_rdaev 字段 描述 了 此 文件 所 代表 的 设备 。 
st_size 字段 提供 了 文件 的 大 小 ， 以 字 节 为 单位 。 
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. st_pblksize 字段 描述 了 有 效率 的 文件 WO 首选 的 块 大 小 。 此 值 (或 是 一 个 整数 
倍 ) 是 用 户 缓冲 式 VO 的 理想 块 大 小 (参见 第 三 章 )。 

st_pblocks 字段 提供 了 分 配给 此 文件 的 文件 系统 块 的 数目 。 如 果 此 文件 有 空调 
(也 就 是 说 ， 如 果 这 是 一 个 稀 朴 文件 ), 则 此 值 会 小 于 st_size 字段 所 提供 的 值 。 

. st_atime 字段 包含 了 上 一 次 文件 被 访问 的 时 间 一 一 也 就 是 此 文件 最 近 一 次 被 
访问 (例如 ， 通 过 read() 或 execle()) 的 时 间 。 

. st_mtime 字段 包含 了 上 一 次 文件 被 修改 的 时 间 一 一 也 就 是 此 文件 最 近 一 次 争 
写 人 的 时 间 。 

. st_ctime 字段 包含 了 上 一 次 文件 被 变更 的 时 间 。 这 通常 会 被 误解 成 文件 被 创建 
的 时 间 ， 在 Linux 或 其 他 Unix 风格 的 系统 上 并 未 保存 此 值 。 此 字段 实际 上 描述 
最 近 一 次 文件 的 元 数据 (例如 它 的 拥有 者 或 使 用 权限 ) 被 变更 的 时 间 。 

执行 成 功 时 ， 这 三 个 调用 都 会 返回 0, 而 且 会 将 文件 的 元 数据 存 入 用户 所 提供 的 stat 

结构 ， 发 生 错误 时 ， 它 们 都 会 返回 -1 并 且 会 将 errno 设 定 成 下 面 的 其 中 一 个 值 : 


FACCESS 
进行 调用 的 进程 对 path 中 的 一 个 目录 元 素 不 具 搜寻 权限 【 仅 适 用 于 stat () 和 
lstatt{))}), 

EBADF 
fd 是 个 无 效 值 ( 仪 适用 于 fstat1{))。 

EFAULT 
path 或 buf 是 个 无 效 指针 。 

ELOOP 
path 中 包含 了 太 多 的 符号 链接 ( 仅 适 用 于 stat () 和 1lstat1{))。 

ENAMETOOLONG 
path 太 长 { 仪 适用 于 stat()} 和 lstat())。 

ENOENT 
patn 中 有 一 个 元 素 不 存在 〈《 仅 适用 于 stat () 和 lstat())。 

ENOMEM 
内 存 的 可 用 空间 不 足以 完成 此 项 请 求 。 

ENOTDIR 
path 中 有 一 个 元 素 不 是 目录 ( 仅 适 用 于 stat() 和 1lstat())。 
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下 面 的 范例 程序 会 使 用 stat () 来 取得 命令 行 所 指定 的 文件 的 大 小 信息 : 


#include <sys/types.h> 
#include <svys/stat.h> 
#include <unistd.hs> 
#include <stdio.h> 


int main (int argc, char *argv|]} 


{ 
struct stAat sb; 
int ret; 
If (argc < 2) 1 
fprintf (stderr, 
"usSage: $s <file>\n", argv[0]}; 
return 1;} 
} 
ret = Stat largvyv[l1|], &sb}; 
if (ret) { 
Derror ("stat"}: 
reaturn 工 ; 
} 
printf ("$%s js $1ld bytes‘\n", 
argv[l1], sb.st_SsSi2e).; 
return 0:; 
} 


下 面 古 对 程序 本 身 的 源 文件 运行 此 程序 的 结果 ; 


$$ .A/atat stat.c 
stat.c is 392 bytes 
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下 面 这 段 程序 代码 会 使 用 fstat () 来 检查 一 个 已 经 打开 的 文件 是 否 位 于 一 个 物理 ( 相 


对 于 网 络 而 言 ) 设备 上 : 


本 

* js_on_physical_device 一 一 如 果 让 aa 位 于 一 个 物理 设备 上 ， 
* 则 返回 一 个 正 整数 ， 如 果 文 件 位 于 一 个 非 物 理 或 虚拟 设备 (例如 
* 经 NFS 挂 载 ) 上 ， 则 返回 0， 如果 发 生 错 误 ， 则 返回 -1， 

* 

int is_on. physical _ device (int fq) 


struct stat sb: 
jnt ret: 


ret = fstat (fdq, &sb):; 
if (rety 1 
perror ("fstat"}): 
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retUrn -1:;: 


] 


return gnu dev_major lsb.st_dev); 


使 用 权限 
除了 可 以 使 用 stat 系列 调用 来 取得 特定 文件 的 使 用 权限 ， 我 们 还 可 以 使 用 另外 两 个 系 
统 调用 来 设 定 这 些 值 ， 


#include <sys/types.h> 
#include <syva/Btat.h> 


int chmod (conaet char *path, mode t mode); 

int faehmod (int fd, mode_t mode); 
chmod() 与 fchmod() 可 将 一 个 文件 的 使 用 权限 设 定 成 mode。 使 用 chmod{) 时 ， 
path 代表 所 要 修改 文件 的 相对 路 径 或 绝对 路 径 名 称 。 使 用 fchmod () 时 ， 此 文件 由 
文件 描述 符 fa 指定 。 


mode 的 合法 值 , 由 mode_t 整数 类 型 来 表示 , 如 同 stat 结构 中 st_mode 字段 所 返 
回 的 那些 值 。 尽 管 这 些 值 都 只 是 简单 的 整数 ， 但 是 它们 的 意义 因 Unix 的 实现 而 异 。 因 
此 ，POSIX 定义 了 一 组 常量 用 于 表示 这 些 使 用 权限 (相关 细节 参见 “新 文件 的 使 用 权 
限 ” 一 节 )。 这 些 常量 可 经 二 元 OR 逻辑 运算 组 合成 mode 的 合法 值 。 例 如 , (S_IRUSR 
1 s_IRGRP) 可 将 文件 的 使 用 权限 设 定 成 拥有 者 与 组 具有 的 读 取 权限 。 以 chmo9d() 或 
fchmoa() 变更 一 个 文件 的 使 用 权限 时 ,进行 调用 的 进程 的 有 效 ID 必须 与 文件 的 拥有 
者 相符 ， 或 者 进行 调用 的 进程 必须 有 具备 CAP_FOWNER 能 力 。 


执行 成 功 时 ,这 两 个 调用 都 会 返回 0; 执 行 失败 时 ,这 两 个 调用 都 会 返回 -1 并 将 errno 
设 定 成 下 面 的 其 中 一 个 错误 值 : 


EACCESS 

进行 调用 的 进程 对 path 中 的 一 个 元 素 不 具 搜 索 权 限 ( 仅 适 用 于 chmod () )， 
EBADF 

文件 描述 符 fd 是 一 个 无 效 值 《 仅 适 用 于 fchmoda ())。 
EFAUDL'TL 


path 是 一 个 无 效 的 指针 〈 仅 适用 于 chmod ())。 

EIO 
文件 系统 上 发 生 了 一 个 内 部 的 MO 错误 。 这 是 一 个 非常 严重 的 错误 ， 可 能 代表 磁 
盘 或 文件 系统 坏 掉 了 了。 
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ELOOP 
解析 Patn 的 时 候 ， 内 核 过 到 太 多 的 符号 链接 ( 仅 适用 于 chmoa1() ) 。 
ENAMETOOLONG 
path 太 长 了 《 仅 适 用 于 chmod 1())。 
ENOENT 
path 并 不 存在 ( 仅 适 用 于 chmod () )。 
ENOMEM 
内 存 的 可 用 空间 不 足以 完成 此 项 请 求 。 
ENOTDIR 
path 中 的 一 个 元 素 并 非 目录 ( 仅 适 用 于 chmod 1!) )。 
EPERM 


进行 调用 的 进程 的 有 效 ID 与 文件 的 拥有 者 不 相符 ,以 及 进程 不 具有 CAP_FOWNER 
的 能 力 。 


EROFS 
文件 位 于 只 读 文 件 系统 上 。 

下 面 这 段 程序 代码 会 将 文件 map.png 设 定 成 拥有 者 具有 读 取 与 写 人 权限 ， 
int ret; 
m 


* 将 当前 目录 中 的 map .png 设 定 成 拥有 者 具有 
* 读 取 与 写 信 权限。 此 结果 等 效 于 


* chmod 600 .mabp.Png。 


i 
ret = chmod (". /map.png", S_IRUSR | SS IWUSRY: 
if {ret) 


Perror {"chmod")}); 
下 面 的 程序 代码 所 完成 的 是 一 样 的 工作 ， 但 是 会 以 fa 来 代表 已 打开 的 文件 map.pneg，; 
int ret; 
六 


* 将 fa 背后 的 文件 设 定 成 拥有 者 具有 
* 读 取 和 写 人 权限 。 


二 
ret = fchmod ‘fd, Ss_IRUSR | 号 TWUSR) ; 
1f {ret) 


perror ("fchmod").; 
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文件 的 拥有 者 kidd 不 会 被 变更 ， 因 为 这 段 程序 代码 将 -1 传 入 了 vid。 
下 面 这 个 函数 会 将 fd 所 代表 的 文件 的 拥有 者 和 组 议定 为 root: 


/* 
* make_root_owner 一 一 将 fd 所 指定 文件 的 拥有 者 和 组 
* 设 定 为 root 。 执 行 成 功 时 会 返回 0， 执行 失败 时 会 返回 -1。 
本 


int make root owner {1nt fd) 
{ 
iTit, Tet; 


A root 的 giqd 与 uid 竺 为 0 */ 
ret = fehown (fd, O00, BO}; 
1f {ret)} 

Derror ("fchown"): 


return ret; 


} 


进行 调用 的 进程 必须 具备 CAP_CHOWN 能 力 。 这 通常 意味 着 它 必 须 为 root 所 拥有 。 


扩展 属性 


扩展 属性 (extended attributes) 也 称 为 xattrs， 提 供 了 一 个 机 制 用 来 将 键 / 值 对 (key/ 
value pair) 永久 地 关联 到 文件 。 本章 中 , 我 们 已 经 探讨 过 关联 到 文件 的 各 种 键 / 值 元 数 
据 : 文件 的 大 小 、 拥有 者 、 上 一 次 的 修改 时 间 等 。 扩展 属性 让 现 有 的 文件 系统 得 以 支持 
原始 设计 中 未 提供 的 功能 , 例如 基于 安全 而 必须 进行 的 访问 控制 。 扩展 属性 之 所 以 值得 
注意 ， 是 因为 用 户 空 间 应 用 程序 可 以 任意 地 对 “ 键 / 值 对 ”进行 创建 、 读 取 和 写 入 操作 。 


扩展 属性 是 文件 系统 不 可 知 论 者 (Jfilesystem-agnostic), 这 意味 大 应 用 程序 可 以 使 用 一 
个 标准 的 接口 来 操纵 它们 ， 此 接口 不 因 文 件 系统 而 异 。 因 此 ,应 用 程序 可 以 使 用 扩展 属 
性 而 不 必 在 意 文件 被 放 在 文件 系统 之 上 , 或 者 文件 系统 内 部 如 何 存 储 键 与 值 。 然而 ,经 
扩展 的 属性 的 实现 与 文件 系统 关系 密 著 ,不 同 的 文件 系统 会 以 极 不 同 的 方式 来 存储 扩展 
属性 ， 但 是 内 核 会 隐藏 这 些 差异 ， 将 它们 抽 离 并 放 在 扩展 属性 的 接口 之 后 。 


举例 来 说 ，ext3 文件 系统 会 将 一 个 文件 的 扩展 属性 存 人 文件 的 inode 的 可 用 空间 里 ( 注 1)。 
此 功能 让 扩展 属性 的 读 取 变 得 非常 快 。 因 为 每 当 应 用 程序 访问 一 个 文件 时 , 会 从 磁盘 将 
包含 inode 的 文件 系统 块 读 进 内 存 , 而 扩展 属性 会 被 “自动 ” 读 进 内 存 ， 所 以 它们 的 访 
加 不 需要 任何 额外 的 开销 。 


汪 ] : 当然 ， 直 到 inode 的 可 用 空间 被 用 完 。 接 着 ext13 会 将 扩展 属性 存储 到 额外 的 文件 系 鱼 
块 。 较 虽 脾 的 exft 并 未 提供 将 扩展 属性 存 入 inode 的 功能 ， 
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其 他 的 文件 系统 ， 例 如 FAT 以 及 minixfs ， 根 本 就 不 支持 扩展 属性 。 针 对 这 些 文件 系 
统 上 的 文件 进行 扩展 属性 的 操作 ， 这 些 文件 系统 将 会 返回 ENOTSUP。 


键 与 值 

每 个 扩展 属性 可 通过 一 个 独一无二 的 键 (key) 来 区 分 。 键 的 内 容 必 须 是 有 效 的 UTF-8。 键 
的 格式 为 namespace.attribute 。 每 个 键 必 须 是 使 用 完全 限定 (fully qualified) 的 形式 ， 也 
就 是 开头 必须 是 一 个 有 效 的 命名 空间 ， 而 且 后 面 紧 跟着 一 个 点 宇 。 例 如 ，user.mime_type 
便 是 一 个 有 效 的 键 ， 此 键 位 于 user 命名 空间 ， 而 且 具 有 mime_type 属性 (attribute)。 


一 个 键 (key) 可 能 是 已 定义 (defined) 或 者 是 未 定义 (undefined)。 如 果 一 个 键 已 定 
义 ， 那 么 它 可 能 被 赋值 ( 非 空 值 ) 也 可 能 未 被 赋值 ( 空 值 )。 也 就 是 说 ， 一 个 已 定义 的 
键 尽管 未 被 赋值 ,但 并 不 等 于 未 定义 。 正 如 我 们 将 看 到 的 , 这 意味 着 一 个 键 的 移 际 需 要 
通过 一 个 特殊 的 接口 〈 只 是 将 一 个 空 值 指派 给 它 是 不 局 的 )。 


与 一 个 键 相 关联 的 值 ， 如 果 不 是 空 的 , 它 可 能 是 任意 字 节 的 数组 。 因 为 此 值 未 必 古 一 个 
字符 串 ， 所 以 它 不 需要 以 null 结尾 ， 尽 管 以 null 结尾 绝对 是 合理 的 ， 如 果 你 打算 以 一 
个 C 字符 串 作为 一 个 键 的 值 的 话 。 既 然 此 值 未 必 是 以 null 结尾 ， 那 么 对 扩展 属性 所 进 
行 的 任何 操作 都 需要 知道 值 的 大 小 。 对 一 个 属性 进行 读 取 操作 时 , 内核 会 提供 它 的 大 小 ， 
对 一 个 属性 进行 写 人 操作 时 ， 你 必须 目 己 提供 它 的 大 小 。 


Linux 并 未 对 “ 键 的 数目 、 一 个 键 的 长 度 、 一 个 值 的 大 小 以 及 与 一 个 文件 相关 联 的 所 有 
键 与 值 所 能 使 用 的 空间 ”做 任何 的 限制 。 然 而 ,文件 系统 实际 上 是 有 限制 的 。 这 会 导致 
与 特定 文件 相关 联 的 所 有 键 与 值 所 能 使 用 的 空间 受到 限制 。 











存储 MIME 类 型 的 更 好 方法 


GUI 的 文件 管理 程序 ， 例 如 GNOME 的 Nautilus， 其 行为 因 文 件 类 型 面 异 : 独 一 无 
二 的 图 标 (icon) 、 不 同 的 默认 单 击 (click) 行为 、 所 能 进行 的 操作 等 。 要 完成 此 事 ， 
文件 管理 程序 必须 知道 每 个 文件 的 格式 。 要 判断 文件 的 格式 , Windows 之 类 的 文件 系 
统 仅 需 要 查看 文件 的 扩展 名 即 可 。 然 而 ， 基 于 传统 和 安全 性 ， Unix 系统 往往 会 查看 
文件 的 肉 容 来 判断 它 的 类 型 。 此 过 程 称 为 MIME 类 型 咱 探 (MIME rype sniffing )。 





有 些 文件 管理 程序 会 直接 产生 此 信息 ;有 些 则 会 将 所 产生 的 信息 缓存 起 来 以 鱼 下 次 使 
用 。 这 些 会 缓存 信息 的 文件 管理 程序 往往 会 把 信息 放 到 特制 的 数据 库 中 。 文件 管理 程 
序 必须 维持 此 数据 库 与 文件 同步 ,因为 文件 可 能 会 在 文件 管理 程序 不 知道 的 情况 下 谈 
变更 。 一 个 更 好 的 做 法 就 是 舍弃 特制 的 数据 库 ， 将 此 类 元 数据 存 人 扩展 属性 : 这 样 更 
容易 维护 ， 访 癌 速度 更 快 ， 而 且 任何 应 用 程序 都 很 容易 访问 。 


文件 和 目录 管理 223 


以 ext3 为 例 ， 特 定 文件 的 所 有 扩展 属性 可 以 放 进 文件 的 inode 里 的 可 用 空间 以 及 - 
额外 的 文件 系统 块 { 较 旧版 的 ext3 只 会 使 用 一 个 文件 系统 块 ， 而 不 会 用 到 inode 时 的 
存储 空间 )。 每 个 文件 的 实际 限制 大 约 为 1 KB 到 8 KB， 这 取决 于 文件 系统 块 的 大 小 。 
相对 而 言 ，XFS 并 无 实际 的 限制 。 然 而 ， 即 使 是 ext3 ， 这 些 限制 通 笛 也 不 定 回 题 ， 因 
为 键 与 值 多 半 是 简单 的 文本 字符 串 。 但 是 别 忘 了 一 一 当 你 将 一 个 项 目的 整个 修订 版 控 
制 历史 存 人 一 个 文件 的 扩展 属性 时 ， 请 先 三 思 ! 


扩展 属性 的 命名 空间 
与 扩展 属性 相关 的 命名 空间 只 是 一 个 组 组 工具 .内 核 可 以 根据 命名 空间 来 实施 不 同 的 访 
问 策略 。 


Linux 当前 定义 了 四 种 扩展 属性 命名 空间 , 而 且 未 来 可 能 会 定义 更 多 的 命名 空间 。 这 四 
种 命名 空间 如 下 所 示 : 


system 
system 命名 空间 可 用 于 实现 利用 扩展 属性 的 内 棱 功 能 , 例如 访问 控制 列表 (access 
control list， 常 简写 为 ACL)。 举 例 来 说 ，syYstem.posix_acl_access 便 是 一 个 位 于 
此 命名 空间 的 扩展 属性 .用 户 是 否 可 以 读 取 或 写 人 这 些 属 性 取决 于 所 使 用 的 安全 模 
块 。 假设 在 最 坏 的 情况 下 ， 任 何 用 户 (包括 root) 都 无 法 读 取 这 些 属性 。 


Security 
security 命名 空间 可 用 于 实现 安全 模块 , 例如 SELinux。 用 户 空间 应 用 程序 是 人格 可 
以 访问 这 些 属 性 同样 取决 于 所 使 用 的 安全 模块 。 黑 认 情 况 下 , 所 有 进程 可 以 读 取 这 
些 属 性 ， 但 是 只 有 具备 CAP_SYS_ADMIN 能 力 的 进程 可 以 对 它们 进行 写 人 操作 。 


trusted 
irusted 命名 空间 会 把 受 限制 的 信息 存 入 用 户 空间 。 只 有 有 具备 CAP_SYS_ADMIN 能 
力 的 进程 可 以 对 这 些 属性 进行 读 取 或 写 人 人 操作， 

?er 
user 命名 空间 是 一 般 进 程 所 使 用 的 标 谁 命名 空间 。 内 核 会 经 一 般 文件 权 限 位 来 控 
制 此 命名 空间 的 访问 。 要 从 一 个 现 有 的 键 读 取 值 ,一 个 进程 必须 对 相应 的 文件 具有 
读 取 的 权限 。 为 了 创建 一 个 新 键 或 将 值 写 人 一 个 现 有 的 键 ,一 个 进程 必须 对 相应 的 
文件 具有 写 人 的 权限 。 你 只 能 对 常规 文件 《而 非 符 号 链接 或 设备 文件 ) 进行 user 
命名 空间 中 扩展 属性 的 赋值 。 如 果 要 设计 一 个 使 用 扩展 属性 的 用 户 空间 应 用 程序 ， 
这 可 能 是 你 想 使 用 的 命名 空间 。 


CY 
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扩展 属性 的 操作 

POSIX 定义 了 4 项 操作 ， 让 应 用 程序 可 以 用 于 处 理 特定 文件 的 扩展 属性 : 

。 ”指定 一 个 文件 以 及 一 个 键 ， 返回 相应 的 值 。 

间 定 一 个 文件 、 一 个 键 以 及 一 个 值 ， 将 值 赋 给 键 。 

。 指定 一 个 文件 ， 返 回 文件 扩展 属性 的 所 有 键 。 

. 中 定 一 个 文件 以 及 一 个 键 ， 从 文件 移 除 该 扩展 属性 。 

POSIX 又 分 别 夫 每 项 操作 提供 3 种 系统 调用 (总 共有 12 种 系统 调用 ): 

。 ”一 个 系统 调用 用 于 操作 所 指定 的 路 径 名 称 : 如 果 该 路 径 引用 了 一 个 符号 链接 , 则 操 
作 该 链接 的 目标 文件 (标准 行为 )。 

。 一 个 系统 调用 用 于 操作 所 指定 的 路 径 名 称 : 如 果 该 路径 引 用 了 一 个 符号 链接 , 则 操 
作 访 链接 本 身 (此 系统 调用 的 名 称 前 级 字母 1 )。 

。 ”一 个 系统 十 用 用 于 操作 文件 摘 述 符 (此 系统 调用 的 称 前 级 字母 £ )。 

接 下 来 说 明 这 12 种 系统 调用 。 

取得 一 个 扩展 属性 

最 简单 的 操作 就 是 从 一 个 文件 返回 特定 扩展 属性 (所 指定 的 键 ) 的 值 : 


#include <svyas/typeg.hy> 
#include <attr/xattr.hy> 


BBize t getxattr (const char *path, const char *key, 
Void *value, size 七 size); 

ssBize_t lgetxattr (const char *path, const char *key, 
void *value, size 七 size}: 

BBize t fgetxattr (int fd, conast char *key, 
Void *vyalue, size 七 Biszse); 


执行 成 功 时 ,getxattr() 会 从 文件 Path 将 扩展 属性 key 的 值 存 人 所 提供 的 缓冲 区 
value 中 ， 缓 冲 区 的 长 度 为 size 个 字 节 ， 而 且 会 返回 此 值 的 实际 大 小 。 


如 霖 size 为 0， 则 此 调用 只 会 返回 值 的 大 小 ， 而 不 会 将 它 存 人 value。 这 让 应 用 程 
序 可 以 决定 缓冲 区 的 大 小 , 以 便 用 来 存储 键 的 值 .于 是 应 用 程序 可 以 按照 需要 分 配 缓冲 
区 或 是 重新 调整 缓冲 区 的 大 小 。 


lgetxattr{) 的 行为 如 同 getxattr(), 但 是 当 path 是 一 个 符号 链接 时 ， 它 会 返 
加 链接 本 身 〈 而 非 链接 的 目标 文件 ) 的 扩展 属性 。 正 如 前 一 节 所 提 到 的 ，user 命名 空间 
中 的 属性 无 法 应 用 于 符号 链接 一 一 因此 ， 此 调用 很 少 被 用 到 。 
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Fgaetxattr{) 的 行为 如 同 getxattr() ,但 是 fgetxattr()】 所 操作 的 是 文件 描述 
入 fa。 

发 生 错 误 时 ， 这 三 种 调用 都 会 返回 -1 并 将 errno 设 定 为 下 面 的 其 中 一 个 值 ; 
EACCESS 


进行 调用 的 进程 对 path 中 的 目录 元 素 不 有 具 搜 索 权 限 〈 仅 适用 于 getxattr() 


与 joqetxattr()), 


EBADF 
fd 是 无 效 的 ( 仅 适 用 于 fgetxattr())。 
EFAULT 
path、key 或 value 是 一 个 无 效 的 指针 。 
ELOOP 
path 中 包含 了 太 多 的 符号 链接 ( 仅 适 用 于 getxattr() 与 lgetxattr())。 
ENAMETOOLONG 
path 太 长 【〈 仅 适用 于 getxattr() 与 lgetxattr1())。 
ENOATTR 
属性 key 并 不 存在 ， 或 者 进程 没有 办 法 访问 该 属性 。 
ENOENT 
path 中 有 一 个 元 素 不 存在 ( 仅 适 用 于 getxattr() 与 lgetxattr(}))。 
ENOMEM 
内 存 的 可 用 空间 不 足以 完成 此 项 请 求 。 
ENOTDIR 
path 中 有 一 个 元 素 不 是 目录 ( 仅 适 用 于 getxattr() 与 lgetxattr())。 
ENOTSUP 
包含 path 或 fa 的 文件 系统 并 不 支持 扩展 属性 。 
ERANGE 


size 太 小 以 至 于 无 法 保存 key 的 值 。 如 先前 所 做 的 讨论 ， 应 用 程序 可 以 再 进行 
一 次 系统 调用 , 但 是 这 次 要 把 size 设 定 成 0。 返回 值 将 指出 所 需 的 缓冲 区 大 小 ， 
于 是 value 可 以 被 重新 调整 成 合适 的 大 小 。 
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设 定 一 个 扩展 属性 
F 面 三 种 系统 调用 可 用 于 设 定 特定 的 扩展 属性 ， 


#include <svya/typea.hy 
#inmnclude <attr/xattr.h> 


int setxattr (const char *path, conet char *key, 
const void *wvalue, size t size, int flagas}; 
int leetxattr (const char *path, conast char *key, 
const void *value, size 七 size, int flags);} 
41nit faetxattr (int fd, const char *key, 
Onet veoid *value, Size t gizse, int flags); 
执行 成 功 时 ，setxattr() 会 将 文件 path 上 的 扩展 属性 key 设 定 成 value (长 度 
为 size 个 字 节 )。flags 字段 用 于 改变 调用 的 行为 。 当 flags 的 值 为 XATTR_CREATE 
时 ， 如 果 扩 展 属性 已 经 存在 ， 则 此 调用 会 失败 。 当 fl1ags 的 从 为 XATTR_REPLACE 
上 时， 如 果 扩 展 属 性 疝 不 存在 ， 则 此 调用 会 失败 。 点 这 行为 ( 当 £1ags 的 值 为 0 时) 丈 
是 允许 创建 与 取代 的 动作 。 无 论 flags 的 值 是 什么 ，key 以 外 的 键 都 不 会 受到 影响 。 


l1setxattr() 的 行为 如 同 setxattr()，, 但 是 当 path 是 一 个 符号 链接 时 ， 
lsetxattr() 所 设 定 的 是 链接 本 身 (而 不 是 链接 的 目标 文件 ) 的 扩展 属性 。 别 忘 了 ， 
user 命名 空间 中 的 属性 无 法 应 用 于 符号 链接 一 一 因此 ， 此 调用 很 少 被 用 到 。 
fsetxattr({) 的 行为 如 同 setxattr() ,但 是 fsetxattr() 所 操作 的 是 文件 描述 
入 fda。 
执行 成 功 时 , 这 三 种 系统 调用 都 会 返回 0; 执行 失败 时 , 它们 都 会 返回 -1 并 将 errno 
设 定 为 下 面 的 其 中 一 个 值 : 
EACCESS 

进行 调用 的 进程 对 path 中 的 一 个 目录 元 素 不 具 搜 索 的 权限 ( 仅 适 用 于 setxattr1() 

SG lsetxattr(} ), 
EBADF 

fd 是 无 效 的 ( 仅 适 用 于 fsetxattr())。 
EDOQUOT 

由 于 配额 的 限制 导致 所 请 求 的 操作 无 法 取得 所 需 的 空间 。 
EEXIST 

flags 的 值 被 设 定 为 XATTR_CREATE, 但 是 在 指定 的 文件 上 key 已 经 存在 。 
EFAULT 

path、key 或 value 是 一 个 无 效 的 指针 。 
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EINVAL 
flags 是 无 效 的 。 
LOOP . 
path 中 包含 了 太 多 的 符号 链接 { 仅 适用 于 setxattr() 与 1setxattr())。 
ENAMETOOLONG 


path 杰 长 ( 仅 适 用 于 setxattr() 与 1setxattr())。 


ENOATTR 

flags 的 值 被 设 定 为 XATTR_REPLACE, 但 是 指定 的 文件 上 key 疝 不 存在 。 
ENOENT 

path 中 有 一 个 元 素 并 不 存在 ( 仅 适 用 于 setxattr() 与 lsetxattr({))。 
ENOMEM 

内 存 的 可 用 空间 不 足以 完成 此 项 请 求 。 
ENOSPC 

文件 系统 上 的 空间 不 足以 存储 该 扩展 属性 。 
ENOTDIR 

path 中 有 一 个 元 素 不 是 目录 ( 仅 适 用 于 setxattr() 与 lsetxattr1())。 
ENOTSUP 


包含 path 或 fd 的 文件 系统 并 不 支持 扩展 属性 。 


列 出 一 个 文件 上 的 扩展 属性 
下 面 三 种 系统 调用 可 用 十 列 出 指派 给 特定 文件 的 扩展 属性 列表 : 


#include <ays/types.h> 
#include <attr/xattr.hy 


a8ize tt listxattr (const char *path, 

char *1list, seize 七 size)} 
BBize t lliastxattr iconst char *path, 

char *1ligst, size t gige); 
ESBize 七 flistxattr (int fd, | 

char *]igst, size t size); 


执行 成 功 时 ，1istxattr() 会 返回 文件 patn 土 的 扩展 属性 列表 。 这 份 列表 会 存 人 
list 所 提供 的 缓冲 区 【长 度 为 size 个 字 节 )。 此 系统 调用 返回 列表 的 实际 大 小 ， 以 
字 市 为 单位 。 


每 个 扩展 属性 的 键 会 被 传人 jist 而 且 会 以 一 个 null 字符 结尾 ， 所 以 这 份 列表 会 像 这 
个 样子 : 
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wuUser md5 sum\Ouser.mime type\0system.posix_acl_default\0" 


因此 ， 尽 管 每 个 键 是 一 个 传统 的 、 以 null 结尾 的 C 字符 串 ， 但 是 你 仍 需要 知 这 整个 列 
表 的 长 度 (你 可 以 从 此 调用 的 返回 值 取得 此 长 度 ), 以 便 处 理 这 份 由 键 所 构成 的 列表 。 想 
知道 你 需要 分 配 多 大 的 缓冲 区 ， 进 行 调 用 时 请 把 size 的 值 设 为 0。 这 会 导致 所 调用 
的 函数 返回 列表 的 实际 长 度 。 如 同 getxattr() ,应 用 程序 必须 将 适当 的 值 传人 value 
以 便 分 配 缓冲 区 或 调整 缓冲 区 的 大 小 。 

1l1istxattr{) 的 行为 如 同 1istxattr()， 但 是 当 pacn 是 一 个 符号 链接 了 时， 
11istxattr({) 所 返回 的 是 与 链接 本 身 (而 不 是 链接 的 目标 文件 ) 有关 的 扩展 属性 。 别 
忘 了 ，user 命名 空间 中 的 属性 无 法 应 用 于 符号 链接 一 一 因此， 这 个 调用 很 少 馈 用 到 。 


fF1istxattr() 的 行为 如 同 listxattr(), 但 是 fl1istxattr() 所 操作 的 是 文件 
描述 符 fa。 
执行 失败 时 ， 这 三 种 调用 都 会 返回 -1 并 将 errno 设 定 为 下 面 的 其 中 一 个 错误 代 人 码 : 


EACCESS 
进行 调用 的 进程 对 path 中 的 一 个 目录 元 素 不 具 搜 索 权限 ( 仅 适用 于 


listxattr(t} 与 ]listxattr() ) 。 


EBADF 
f9 是 无 效 的 《〈 仅 适用 于 flistxattr1{)})。 
EFALULT 
path 或 1ist 是 一 个 无 效 的 指针 。 
ELOOP 
path 中 包含 了 太 多 的 符号 链接 ( 仅 适用 于 listxattr() 与 1listxattr{))。 
ENAMETOOLDLONG 


path 太 长 【 仅 适 用 于 listxattr() 与 ll]listxattr{))s 
ENOENT 

path 中 的 一 个 元 素 并 不 存在 ( 仅 适 用 于 listxattri) 与 1listxattr())。 
ENOMEM 

内 存 的 可 用 空间 不 足以 完成 此 项 请 求 。 
ENOTDIR 

path 中 的 一 个 元 素 并 非 目 录 ( 仅 适 用 于 listxattr() 与 ]listxattr(}))。 
ENOTSUPP 

包含 Path 或 fd 的 文件 系统 并 不 支持 扩展 属性 。 


ERANGE 
size 为 非 零 值 , 但 是 太 小 不 足以 保存 整 份 列表 。 应 用 程序 可 以 再 进行 一 次 系统 调 
用 , 但 是 这 次 要 把 size 设 成 0， 以便 取 得 列表 的 实际 大 小 。 然 后 程序 可 以 调整 
value 的 大 小 ， 以 恒 再 进行 一 次 系统 调用 。 


移 除 一 个 扩展 属性 
最 后 三 种 系统 调用 可 用 于 从 特定 的 文件 移 除 所 指定 的 键 ， 


人 
#include <attr/xattr.h> 


int removexattr (const char *path, conat char *key);} 

jint lremovexattr (congt char *path, conast char *key); 

int fremovexattr (int fd, conast char *key); 
执行 成 功 时 ，removexattr() 会 从 文件 path 移 除 扩展 属性 key 。 别 忘 了 ， 一 个 未 
定义 的 键 不 同 于 一 个 具有 空 值 (长度 为 零 ) 的 已 定义 的 键 。 


l1removexattr({) 的 行为 如 同 removexattr() ,但 是 当 path 是 一 个 符号 链接 时 ， 
lremovexattr () 会 移 除 与 链接 本 身 (而 不 是 链接 的 目标 文件 ) 相关 的 扩展 属性 。 别 
忘 了 , user 命名 空间 中 的 属性 无 法 应 用 于 符号 链接 因此 , 这 个 调用 也 很 少 锌 用 到 。 





Fremovexattr()】 的 行为 如 同 removexattr(), 但 是 fremovexattr({) 所 操作 
的 是 文件 描述 符 fa。 

执行 成 功 时 ， 这 三 种 调用 都 会 返回 0; 执行 失败 时 ， 它 们 都 会 返回 -1 并 将 errno 设 
EACCESS 


进行 调用 的 进程 对 pathn 中 的 一 个 目录 无 素 不 具 搜 索 权 限 ( 仅 适用 于 removexattr1() 


Glremovexattrt{) )。 


EBADF 
fd 是 无 效 的 { 仅 适 用 于 fremovexattr|())，。 
EFAUTLT 
path 或 key 是 一 个 无 效 的 指针 。 
ELOOP 
path 中 包含 了 太 多 的 符号 链接 ! 仅 适用 于 removexattr1() 与 ]removexattr())， 
ENAMETOOLONG 
path 太 长 〈 仅 适用 于 removexattr{() 与 lremovexattr1())，。 
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ENOATTR 

key 并 不 存在 于 所 指定 的 文件 中 。 
ENOENT 

path 中 的 一 个 元 素 并 不 存在 ( 仅 适 用 于 removexattr() 与 lremovexattr1{))。 
ENDOMEM 

内 存 的 可 用 空间 不 足以 完成 此 项 请 求 。 
ENOTDIR 

path 中 的 一 个 元 素 并 非 自 隶 ( 仪 适用 于 removexattr!() 与 lremovexattr1()}))。 
ENOTSUPP 


包含 path 或 Ed 的 文件 系统 并 不 支持 扩展 属性 。 


目录 

在 Unix 中 ,目录 (directory) 是 一 个 简单 的 概念 ， 它 包含 了 一 捉 文 件 和 名称 ， 每 个 文件 
名 称 会 被 映射 到 一 个 inode number。 每 个 名 称 又 称 为 一 个 目录 项 (directory entry), 而 
且 每 个 “名 称 至 inode ”的 映射 (mapping) 称 为 一 个 链接 (Link)。 一 个 目录 的 内 容 一 一 
使 用 ls 所 看 到 的 结果 一 一 就 是 该 目录 中 所 有 文件 名 称 所 构成 的 列表 .。 当 用 户 在 指定 的 
目录 中 打开 一 个 文件 时 ,内 核 会 在 目录 列表 中 寻找 该 文件 的 名 称 ,试图 找到 相应 的 inode 
number。 然 后 内 核 会 把 该 inode number 传递 给 文件 系统 ， 文 件 系 统 会 利用 它 来 找到 文 
件 在 设备 上 的 物理 位 置 。 


目录 中 还 可 以 包含 其 他 目录 。 子 目录 (subdirectory) 就 是 一 个 目录 中 所 包含 的 另 一 个 目 
录 。 基 于 此 定义 ， 所 有 的 目录 都 是 某 个 父 目 录 (parent directory) 的 子 目 录 ， 位 于 文件 
系统 树 最 根部 的 目录 〈/) 除外 。 毫 不 意外 ， 此 目录 就 称 为 根 目录 (root directory), 不 
要 与 root 的 home 目录 (Wroot) 杭 误 了 。 


路 径 名 称 是 由 一 个 文件 名 称 与 它 的 一 个 或 多 个 父 目录 名 称 所 组 成 。 绝 对 路 径 名 称 就 是 以 
根 目 孙 开 头 的 路 径 名 称 ， 例 如 Asmpinsertant。 相对 路 径 名 称 就 是 并 非 以 根 目录 开头 的 
路 径 名 称 ， 例 如 bin/sextant。 要 使 用 这 样 的 路 径 名 称 , 操作 系统 必须 知道 该 路 径 相 对 于 
哪个 目录 。 当 前 工作 目录 (下 一 节 会 讨论 ) 可 作为 起 始点 。 


字符 “人 【在 路 径 名 称 中 代表 目录 ) 以 及 null (在 路 径 名 称 中 代表 结尾 ) 除外 ， 文 件 和 
目录 名 称 可 以 包含 任何 字符 。 也 就 是 说 , 标准 的 做 法 就 是 将 路 径 名 称 中 的 字符 限定 为 当 
前 的 locale 设 定 下 有 效 的 可 打印 字符 ， 甚 至 只 是 ASCII。 然 而 ， 因 为 内 核 以 及 C 链接 
库 都 不 会 进行 此 工作 ， 所 以 应 用 程序 只 能 使 用 有 效 的 可 打印 字符 。 
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在 较 旧 版 的 Unix 系统 中 , 文件 名 称 限定 为 14 个 字符 。 今日， 所 有 现代 的 Unix 文件 系 
统 人 允许 每 个 文件 名 称 至 少 可 以 有 255 个 字 节 ( 注 2) 。Linux 下 的 许多 文件 系统 甚至 允 
许 更 长 的 文件 名 称 〈 注 3) 。 


每 个 目录 包含 两 个 特殊 目录 :“.” 以 及 “..”( 分 别称 为 dot 以 及 dot-dot) 。dot (点 ) 目 
录 引 用 目录 本 身 , 而 dot-dot (点 点 ) 目录 则 引用 目录 的 父 目录 。 例如 , 目录 /home/kidd/ 
gold/.. 如 同 目录 /home/kidd 。 根 目录 的 dot 以 及 dot-dot 目录 则 指向 根 目录 本 身 一 一 也 
就 是 /、/. 以 及 /.. 皆 为 同一 个 目录 。 因 此 ， 就 技术 而 言 ， 你 可 以 说 根 目录 也 是 它 自己 的 
子 目录 。 





当前 工作 目录 


每 个 进程 都 有 一 个 当前 目录 , 该 目录 最 初 继承 自 父 进程 。 该 目录 又 称 为 进程 的 当前 工作 
目录 (current working directory, 常 简写 为 cwd)。 当 前 工作 目录 是 内 核 用 于 解析 相对 
路 径 名 称 的 起 点 。 举 例 来 说 , 如 果 一 个 进程 的 当前 工作 目录 是 /home/blackbeard, 而 且 
该 进程 试图 打开 parrotjpg， 于 是 内 核 将 试图 打开 /home/blackbeard/parrot.jpg。 相 对 
地 , 如 果 进 程 试图 打开 /usr/bin /mast , 则 内 核 会 打开 /usr/bin/mast 一 一 当前 工作 目录 
不 会 影响 绝对 路 径 名 称 (也 就 是 以 一 个 斜 线 符号 开头 的 路 径 名 称 )。 


一 个 进程 可 以 取得 并 变更 它 的 当前 工作 目录 ，。 


取得 当前 工作 目录 

取得 当前 工作 目录 的 首选 方法 就 是 使 用 经 POSIX 标准 化 的 get cwa () 系统 调用 ， 
#include <unistd.h> 
char * gatcwd (char *buf, size 七 size)y; 

执行 成 功 了 时 ，getcwa() 会 将 当前 工作 目录 (一 个 绝对 路 径 名 称 ) 复制 到 buf 所 指 回 


的 缓 促 区 (长度 为 size 个 字 节 )， 而 且 会 返回 一 个 指 疝 buf 的 指针 。 执行 失败 时 ， 此 
凋 用 会 返回 NULL， 并 且 会 将 errno 设 定 为 下 面 的 其 中 一 个 值 ， 


注 2: ”请 注意 ， 此 限制 为 255 小 字 节 ， 而 不 是 255 小 字 桂 。 多 字 节 字 . 侍 在 这 255 个 字符 中 显 
然 会 用 掉 1 个 以 上 的 字 节 。 

注 3， 当 名 ,为 了 向 下 基 客 ，Linux 所 提供 的 轻 旧 文件 系统 ， 例如 FAT, 仍 会 延续 它们 自己 的 
限额 。 以 FAT 的 情况 来 说 ， 此 限额 为 8 个 字符 ,后面 跟着 一 个 点 号 ， 点 号 后 面 再 跟着 
3 个 字符 。 是 的 ， 以 点 号 作为 文件 系统 的 一 个 特 珠 字 闪 是 个 天 委 的 做 法 。 
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区 是 一 个 无 效 的 指针 。 


- 关 国 
.二 Size 为 0, 但 是 buf 不 为 NULL。 
EOENT 
了 ”当前 工作 目录 不 再 有 效 。 如 果 当 前 工作 目录 被 移 除 就 会 发 生 此 情况 。 
ERANGE ee 
size 太 小 而 无 法 在 buf 中 保存 当前 工作 目录 。 应 用 程序 需要 分 配 一 个 较 大 的 组 
冲 区 ， 再 试 一 次 。 


下 面 是 一 个 使 用 get cwa () 的 例子 : 
char cwd[lBUF_LEN]; 


It (lgetcwd (cwd, BUF_LEN)) 1 
perror ("getcwgd"); 
exit (EXIT_FAILURE); 

} 


Printf ("cwd = $%s\n", cwd); 


依据 POSIX 的 规定 , 如 果 buf 为 NULL, 则 getcwa() 的 行为 未 定义 。 Linux 的 C 链 
接 库 在 此 情况 下 会 分 配 一 个 长 度 为 size 个 字 节 的 缓冲 区 ， 而 且 会 把 当前 工作 目录 存 
” 储 到 该 处 。 如 果 size 为 0，C 链接 库 会 分 配 一 个 足以 存储 当前 工作 目录 的 缓冲 区 。 然 
后 应 用 程序 的 责任 是 在 它 完 成 工作 后 ， 经 free() 释放 组 促 区 。 因 为 这 是 Linux 特有 
的 行为 ， 重 视 可 移植 性 或 严格 遵守 POSIX 的 应 用 程序 不 应 该 使 用 此 功能 。 然 而 ， 此 功 
能 让 getecwda( ) 的 使 用 变 得 非常 简单 | 下 面 便 是 一 个 例子 : 
char *cwd; 
cwd = getcwd (NULL, 0); 
if (!cwad) { 
perror ("getcwd"); 
eXxlt {EXIT FAILURE)}: 
} 
printf ("cwd = $s\n", cwa); 
free (cwd),; 
Linux 的 C 链接 库 还 提供 了 一 个 get_current_dir_name () 函数 , 当 pbuf 为 NULL 
而 且 size 为 0 时， 此 函数 的 行为 如 同 getcwa()，; 
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#define GHU_ SOURCE 
#include <unistda.h> 


Ghar * get current dir name (veoid)}):} 


因此 ， 下 面 的 范例 程序 代码 等 效 于 上 面 的 范例 程序 代码 ，; 
char *cwd; 


Cwd = get_current dir name (}); 

if 【1Cwa) 1 
perror ("get_current_dir name"); 
exit (EXIT FAILURE); 

} 


printf ("cwd = %s\n", cwd); 


free (cwdl}; 


较 旧 版 的 BSD 系统 使 用 的 是 getwa () 调用 ,为 了 癌 下 兼容 ，Linux 也 提供 此 调用 ， 


#dafine XOPEN SOURCE EXTENDED /* or BSD SOURCE */ 
#incelude <unistd.h> 


. Ghar * getwd (char *buf}; 


getwd () 会 将 当前 工作 目录 复制 到 buf (长 度 必 须 至 少 为 PATH_MAX 个 字 节 )。 执行 
成 功 时 ， 此 调用 会 返回 buf 执行 失败 时 ， 它 会 返回 NULL。 例 如 ; 1: 


char cwd[PATH MAX]: 


if (!getwd (cwd)} { 
Perror ("getwd"); 
exit (EXIT FAILURE); 


中 
中 
4 
printf ("cwd = 本 SN ，Cwdl) ; 


基于 可 移植 性 与 安全 性 的 理由 ,应 用 程序 不 应 该 使 用 getwa () ,最 好 使 用 getcwa () 。 






变更 当前 工作 目录 

当 一 个 用 户 首 次 登录 她 的 系统 ，login 进程 会 根据 /etc/passwd 文件 中 的 设 定 将 她 的 当 
前 工作 目录 设 定 成 她 的 home 目录 。 然而, 有 些 时 候 ， 一 个 进程 会 想 变更 它 的 当前 工作 
” 目录。 例如 ， 当 用 户 键 人 cd，shell 可 能 会 想 这 么 做 。 


Linux 提供 了 两 个 系统 调用 用 于 变更 当前 工作 目录 ， 一 个 接受 目录 的 路 径 名 称 ， 而 另 一 
个 接受 代表 已 打开 目录 的 文件 描述 符 ， 
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#include <unistd.h» 


int chdir (conet char *path); 
int fechadir (int fd}); 
chqdir () 可 用 于 将 当前 工作 目录 变更 为 path 所 指定 的 路 径 名 称 (可 以 是 绝对 的 也 可 
以 是 相对 的 ) 。 同 样 地 ，fchair () 可 用 于 将 当前 工作 目录 变更 为 fa (必须 对 应 到 已 
打开 的 目录 ) 所 代表 的 路 径 名 称 。 执 行 成 功 时 ， 这 两 个 调用 都 会 返回 0， 执 行 失败 时 ， 
”这 两 个 调用 都 会 返回 - 1。 z 
执行 失败 时 ，chair () 还 会 将 errno 设 定 成 下 面 的 其 中 一 个 值 : 
EACCESS ， 
进行 调用 的 进程 对 path 中 的 一 个 目录 元 素 不 具 搜 索 权 限 。 
EFAULT 
path 是 一 个 无 效 的 指针 。 
EIO 
发 生 了 一 个 内 部 的 IO 错误 。 
ELOOP 
解析 path 的 时 候 ， 内 核 遇 到 了 太 多 的 符号 链接 。 
ENRAMETOOLONG 
path 太 长 。 
ENOENT 
path 指向 的 目录 并 不 存在 。 
ENOMEM 
内 存 的 可 用 空间 不 足以 完成 此 项 请 求 。 
ENOTDIR / 
path 中 有 一 个 或 多 个 元 素 不 是 目录 。 
fchdir() 会 将 errno 设 定 为 下 面 的 其 中 一 个 值 ， 
EACCESS 
进行 调用 的 进程 对 fa 所 引用 的 目录 不 具 搜索 权限 (也 就 是 execute 位 未 设 定 )。 
如 果 顶 层 目 录 可 供 读 取 但 是 不 可 供 执行 , 便 会 发 生 此 事 。 在 此 情况 下 , open () 会 
成 功 ， 但 是 fchdir () 会 失败 。 
EBADF 


fq 并 不 是 一 个 已 打开 的 文件 描述 符 。 
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这 两 个 调用 的 errno 还 有 可 能 被 设 定 为 其 他 的 错误 值 ， 这 因 文 件 系统 而 开 。 


这 两 个 系统 调用 只 会 影响 当前 正在 运行 的 进程 。Unix 并 未 提供 任何 机 制 用 于 变更 不 同 
进程 的 当前 工作 目录 。 因 此 ，shell 中 可 以 找到 的 cd 命令 (如 同 多 数 命 令 那 样 ) 不 会 
成 为 一 个 独立 的 进程 , 它 只 会 对 第 一 个 命令 行 参数 执行 chdir ()，, 然后 结束 。 事 实 上 ， 
cd 必须 是 一 个 特殊 的 内 置 命令 ， 它 会 导致 shell 自己 调用 chdir()， 变 更 自己 的 当前 
工作 且 录 。 


getcwd{) 的 最 常见 用 法 就 是 保存 当前 工作 目录 ,， 所 以 进程 稍 后 可 以 返回 读 处 。 例 如 


char *swa; 
int 工人 七 


/* 保存 当前 工作 目录 */ 
swd = getcwd (NULL, 0}); 
itf {lswaAa) 1 
perror ("getcwd"}:; 
Sxit (EXIT_FATILURE).; 
} 


/* 变更 为 不 同 的 目录 */ 
ret = chdir (some_other_ Girl) : 
if 【TELt) 1 
perror ("chdir"); 
exit (EXIT_ FAILURE}):; 
| 


i* 在 新 目录 中 进行 其 他 工作 …… */ 
/sa 运 回 所 保存 的 目录 */ 


ret = chdir (swd); 
if (ret) I 
perror {"chair"y; 
exlt (EXITeFAIGURE}: 
】 


free (swadl): 


然而 ， 比 较 好 的 做 法 是 先 以 open() 打开 当前 目录 ， 然 后 再 对 它 使 用 fchair1()。 此 
做 法 速度 比较 快 ， 因 为 内 棱 不 会 把 当前 工作 目录 的 路 径 名 称 存 入 内 存 ， 它 只 会 存储 
inode 。 因 此 ， 每 当 有 用 户 调 用 getcwda() 时 ， 内 核 就 必须 游 走 目录 结构 来 产生 路 径 名 
称 。 反 过 来 说 ， 打 开 当 前 工作 目录 的 代价 比较 小 ， 因 为 内 核 已 经 准备 好 它 的 inode， 所 
以 不 需要 使 用 人 类 可 阅读 的 路 径 名 称 来 打开 一 个 文件 .和 下面 便 是 使 用 此 做 法 的 范例 程序 
代码: 


让 
Cv 
By 
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int swd fq: 


号 风 司 _ 革 局 OpeEn DRDONLY) ; 
if tswd_ fd == -1) 1 

perror ("open"); 

Ext (EXIT FAITLURE): 
} 


i* 变更 为 不 同 的 目录 */ 
ret = chdir (some other_dir); 
if tret) 1 
perror ("chdir"):; 
exit (EXIT_FAILURE): 
} 
/* 在 新 目录 中 进行 其 他 工作 ……*/ 
1* 返回 所 保存 的 股东 */ 
ret = fochdir ‘swd_fd}:; 
it tlret) 1 
perror {"fchdir"}:; 
exit (EXIT FAILURE). 
| 


/* 关闭 目录 的 fd */ 
ret = close (swd fd):; 
if (rety 1 
perror ("close"):; 
exit (EXIT_FAILURE); 
} 


这 就 是 shell 实现 暂 存 先前 目录 的 缓存 机 制 的 方法 (例如 ， 在 bash 中 使 用 cd - 命令 )。 


一 个 进程 如 果 不 在 和 平 它 的 当前 工作 目录 古 什么 例如 一 个 守护 进程 (daemon)， 通 
常会 调用 chair("/") 把 它 设 定 成 “/”。 一 个 连接 用 户 与 他 的 数据 的 应 用 程序 ， 例 如 一 
个 文字 处 理 器 ,通常 会 将 它 的 当前 工作 目录 设 定 为 用 户 的 home 目录 或 者 是 特定 的 文件 
目录 。 因 为 当前 工作 目录 仪 与 相对 路 径 名 称 的 上 下 文 有 关 ， 所 以 对 “用 户 从 shell 所 调 
用 的 命令 行 实用 程序 ”而 言 ， 当 前 工作 目录 最 为 有 用 。 





创建 目录 
Linux 提供 了 一 个 经 POSIX 标准 化 的 系统 调用 ， 可 用 于 创建 新 目录 : 


#include <BsYs/Btat.h> 
#include <sYya/types.h> 


int mkdir (congt char *path, mode t model); 


执行 成 功 时 , mkdir() 会 创建 权限 位 为 mode (经 过 当前 umask 的 修改 ) 的 目录 path 
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(可 能 是 相对 的 ， 也 可 能 是 绝对 的 ) ， 而 且 会 返回 0。 


当前 的 umask 会 按照 通常 的 方式 修改 mode 参数 , 再 加 上 操作 系统 特有 的 任何 模式 位 : 
在 Linux 中 ， 新 建 目录 的 权限 位 会 被 设 定 为 (mode & ~umask & 01777)。 换 言 之 ， 
事实 上 ，umask 对 进程 所 强加 的 限制 是 mkdir1() 所 不 能 忽视 的 。 如 果 新 目录 的 父 目 
录 的 set group ID (sgid) 位 被 设 定 过 ， 或 者 文件 系统 的 挂 载 使 用 了 BSD 的 组 语 浆 ， 则 
新 目录 将 从 它 的 父 目 录 继 承 此 组 关系 。 否 则 ， 会 对 新 目录 使 用 进程 的 有 效 组 1D。 


执行 失败 时 ，mkair() 会 返回 -1 并 且 将 errno 设 定 为 下 面 的 其 中 一 个 值 : 


EACCESS 
当前 进程 无 法 对 父 目录 进行 写 入 操作 ,或 者 无 法 对 path 中 一 个 或 多 个 元 素 进行 
搜索 操作 。 


EEXIST 
path 已 经 存在 ( 且 不 一 定 是 一 个 上 且 录 )。 
EFAULT 
path 是 一 个 无 效 的 指针 。 
EDLOOP 
解析 path 的 时 候 ， 内 核 遇 到 了 太 多 的 符号 链接 。 
ENAMETOOLONG 
path 太 长 。 
ENOENT 
path 中 有 一 个 元 素 不 在 在， 或 者 是 一 个 虚 悬 (dangling) 符号 链接 。 
ENOMEM 
内 存 的 可 用 空间 不 足以 完成 此 项 请 求 。 
ENOSPC 
包含 path 的 设备 已 无 空间 ,或 者 用 户 的 磁盘 配额 已 逾越 限度 。 
ENOTDIR 
path 中 有 一 个 或 多 个 元 素 不 是 目录 。 
EPERM 
包含 path 的 文件 系统 并 不 支持 创建 目录 。 
EROFS 


包含 path 的 文件 系统 是 以 只 读 模式 挂 载 的 。 
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移 除 目录 


mkair() 的 反 向 操作 就 是 经 过 POSIX 标准 化 的 rmair(), 可 用 于 从 文件 系统 层次 结 
构 移 除 一 个 目录 : 


#inaclude <unistd.h> 


int rmidir (conest char *path); 


执行 成 功 时 ，rmdir () 会 从 文件 系统 移 除 path, 而 且 会 返回 0。path 所 指定 的 目录 必 
须 是 空 的 ， 它 只 能 包含 “.”(dot) 和 “..”(dot-dot) 目录 。 系 统 调用 并 未 实现 写 rm -r 
繁 效 的 递归 删除 功能 。 此 类 工具 必须 以 手动 方式 对 文件 系统 进行 深度 优先 搜寻 ,从 时 汕 
点 开始 移 除 所 有 文件 和 目录 , 并 在 文件 系统 中 往 上 移动 。 rmdir() 可 用 于 每 个 阶段 :一 
旦 目录 中 的 文件 被 移 除 ， 就 可 以 移 除 读 目 永 。 


执行 失败 时 ，rmdir () 会 返回 -1 并 将 errno 设 定 为 下 面 的 其 中 一 个 值 ; 
EACCESS 
不 允许 对 path 的 父 目录 进行 写 入 操作 ,或 者 path 中 有 一 个 元 素 无 法 被 搜索 。 
EBUSY 
系统 当前 正在 使 用 path, 无 法 称 除 path。 在 Linux 中 , 如果 path 是 一 个 挂 载 
点 或 是 一 个 根 目 录 (由 于 chroot () , 根 目 录 不 一 定 是 挂 载 点 ! ), 才 会 发 生 此 情况 。 


EFAULT 

path 是 一 个 无 效 的 指针 。 
EINVAL 

path 使 用 “.”(dot) 目录 作为 它 的 最 后 一 个 元 素 。 
ELOOP 

解析 patbh 的 时 候 ， 内 枝 遇 到 了 太 多 的 符号 链接 。 
ENAMETOOLONG 

path 太 长 。 
ENOENT 

path 中 有 一 个 元 素 不 存在 或 者 是 一 个 虚 悬 符号 链接 。 
ENOMEM 

内 存 的 可 用 空间 不 足以 完成 此 项 请 求 。 
ENOTDIR 


path 中 有 一 个 或 多 个 元 素 不 是 目录 。 
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ENOTEMPTY 
path 中 除了 “.”(dot) 和 “..”{dot-dot) 目录 还 包含 其 他 项 。 
EPERM 


path 的 父 目录 设 定 了 sticky 位 (Ss_ISVTX), 但 是 进程 的 有 效用 户 ID 不 是 该 父 
进程 的 用 户 ID， 也 不 是 path 本 身 的 用 户 ID， 而且 进 程 并 不 具备 CAP_FOWNER 
能 力 。 另 外 ， 包 含 path 的 文件 系统 不 允许 目录 的 移 除 操作 。 


EROFS 
包含 path 的 文件 系统 是 以 只 读 模 却 挂 载 的 。 
此 调用 的 用 法 很 曾 单 : 


xx 称 除 上 自 录 /home/barbary/maps */ 
ret = rmilir ("/home/barbary /maps"}; 
i [ret) 

peError ("rmdir"),; 


读 取 一 个 目录 的 内 容 

POSIX 定义 了 一 系列 的 函数 , 可 用 于 读 取 目录 的 内 容 一 一 也 就 是 特定 目录 中 包含 哪些 
文件 。 如 果 你 正在 实现 1s 或 是 一 个 图 形 化 的 文件 保存 对 话 框 ， 如 果 你 需要 操作 特定 目 
录 中 的 每 一 个 文件 , 或 者 如 果 你 想 搜 寻 特 定 目录 中 与 特定 模式 相 匹 配 的 文件 , 那么 这 些 
国 数 就 会 很 有 用 。 

着 手 读 取 一 个 目录 的 内 容 之 前 ， 你 需要 创建 一 个 目录 流 (directory stream)， 此 流 会 被 
表示 成 DIR 对 象 : 


#include <sys/typeg.h> 
#include <dirent.h> 


DIR * opendir (conat char *name);} 
执行 成 功 时 ，opendir {) 会 创建 一 个 上 且 录 流 来 代表 name 所 指定 的 目录 。 
目录 流 只 是 一 个 信息 比较 多 的 文件 描述 符 , 它 代 表 已 打开 的 目录 、 某 些 元 数据 以 及 保存 
目录 内 容 的 缓冲 区 。 因 此 ， 你 可 以 取得 在 特定 征 录 流 背 后 的 文件 换 述 符 ; 

#9define BSD SOURCE /* or _SVID SOURCE */ 

#include <gyea/types.h> 


#include <dirent.h> 


int dirfda (DIR *dir}} 


执行 成 功 时 ，airfdal() 会 返回 睛 录 流 asir 的 文件 描述 符 ， 发 生 错误 时 ， 此 调用 会 返 
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回 -1。 因 为 目录 流 函 数 会 在 内 部 使 用 这 个 文件 描述 符 ， 所 以 程序 应 该 只 调用 此 类 函数 
而 不 操纵 文件 位 置 。diriq() 是 BSD 自行 扩展 的 函数 ， 并 未 经 过 POSIX 的 标准 化 ， 
希望 声明 自己 的 程序 符合 POSIX 标准 的 程序 设计 者 应 该 避免 使 用 此 函数 。 


从 一 个 目录 流 中 读 取 数据 
使 用 ooendair1() 创建 一 个 目录 流 后 ， 你 的 程序 可 以 开始 从 该 目 录 读 取 数 据 项 。 要 进 
行 此 项 操作 ， 你 可 以 使 用 readdir() 从 特定 的 DIR 对 象 一 个 接 一 个 地 返回 其 数据 项 。 


#include Bayea/typeas.h> 
#inelude dirent.h> 


atruct dirent * readdir IDIR *dir})} 


执行 成 功 时 ，readdqir() 会 返回 dir 所 代表 的 目录 里 下 一 个 数据 项 。dirent 结构 
代表 一 个 目录 项 。 在 Linux 上 ， 此 结构 定义 于 <dirent .h>， 下面 是 它 的 定义 : 
struct dirent 1{ 
ino 七 dd ino; /* inode mumber */ 
off 七 d off; /* offget to the next dirent */ 
unsigned short qd reclen; /* length of this record */ 
ungigned char d type; /* type of file */ 
char dq name[256]}; /* filename */ 
上 了 
POSIX 只 需要 a_name 字段 ， 这 是 目录 中 单一 文件 的 名 称 。 其 他 字段 则 是 可 选项 ， 或 
者 是 Linux 特有 的 字段 。 想 要 移植 到 其 他 系统 或 符合 POSIX 标准 的 应 用 程序 只 应 该 访 


上 a_name,。, 


应 用 程序 可 以 调用 readaair()， 取 得 目录 中 每 个 文件 , 直到 它们 找到 所 要 搜索 的 文件 
或 是 直到 读 取 整个 且 录 ， 此 时 readdair() 会 返回 NUDL。 

执行 失败 时 readdir() 也 会 返回 NULL。 为 了 区 分 错误 以 及 读 完 所 有 文件 , 每 次 调用 
readdir() 之 前 ,应 用 程序 必须 将 errne 设 定 为 0, 并 于 事后 检查 返回 值 和 errno。 
只 有 在 errno 的 值 被 readdir() 设 定 为 EBADF 时 才 代 表 Gir 是 无 效 的 。 因 此, 许 
多 应 用 程序 并 不 会 去 检查 错误 ， 而 且 会 假设 NULL 代表 已 经 读 完 所 有 文件 。 


关闭 目录 流 
要 关闭 openair() 所 打开 的 一 个 目录 流 ， 可 以 使 用 closedir li): 


#incljude <Sgva/types.h> 
#incelude <dirent.h»> 


int closasedir {DIR *dir); 
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执行 成 功 时 ，closedair() 会 关闭 dir 所 表示 的 目录 流 ， 包 括 背 后 后 的 文件 描述 
而 且 会 返回 0。 ee 此 函数 会 返回 -1 并 将 errno 设 定 为 EBADEF ， Ee 
的 错误 代码 ， 表 示 air 不 是 一 个 已 打开 的 目录 流 。 


下 面 的 范例 程序 代码 实现 了 一 个 函数 fina_file_in_air(), 它 会 使 用 0 
在 特定 目录 中 搜索 特定 文件 名 称 。 如 果 文 件 存在 于 目录 中 ， 则 函数 会 返回 0; 否则 ， 
返回 非 零 值 


* find_file in dir - 搜索 日 录 path 以 便 
* 找到 名 为 file 的 文件 。 

* 如 果 file 存在 于 path 中 ， 则 返回 0， 

* 否则 ， 返 回 非 零 值 。 

i 


int find file in dir {const char *path, const char *file) 
Struct dirent *entry:; 
int ret = 1: 


DIR *dir; 


dir = opendir {path); 


Errno = 0; 
while (frentry = readdir (dir}} = NULL) 
if tt!stremp (lentry->d name, file}}y 1 
ret = 0D; 
break; 


} 


if (errno && lentry) 
Perror ("readdir");} 


closedir {qdir}). 
return ret: 


用 于 读 取 目 录 内 容 的 系统 调用 


前 面 所 探 计 的 读 取 目录 内 容 的 函数 都 是 经 过 POSIX 标准 化 而 且 是 C 链接 库 都 提供 的 。 
就 内 部 而 言 , 这 些 函 数 会 使 用 readdir() 与 getdents() 其 中 的 一 个 系统 调用 , 在 
此 处 列 出 它们 只 是 为 了 完整 性 : 

#incljude <unigstd.h> 

#include <linux/typeg.h> 


#include <linux/dirent ,hh> 
#inceclude <linux/unistd.h> 
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#include <errno.h> 


于 
# Not defined for usBer apace: need to 
页 Wage the Sysacall3t}) macro to access. 


WF 


int readdir (unsigned int fqd, 
gtruct dirent *dirp, 
unsigned int count)}):; 


int getdents {unsigned int fd, 
struct dirent *Adirp, 
unsigned int count):; 
尔 不 会 想 使 用 这 两 个 系统 调用 ! 因为 不 好 使 用 , 而 且 不 具 可 移植 性 。 事实 上 。 用 户 空间 应 
用 程序 应 该 使 用 C 链接 库 的 copendir()}、readdir() 以 及 closeadir1) 系统 调用 。 


链接 

前 面 在 讨论 目录 的 时 候 提 到 过 ， 每 个 名 称 至 inode 的 映射 (mapping) 称 为 一 个 链接 
(link) 。 另 一 个 简单 的 定义 一 链接 基本 上 就 是 一 个 列表 (目录 ) 中 指 癌 特定 inode 的 
一 个 名 称 说 明了 为 什么 会 有 多 个 链接 指向 相同 的 inode。 也 就 是 说 ， 单 一 inode 
(因此 是 单一 文件 ) 可 以 被 如 /eiceyeasiormsy 及 Auewraieaser 者 所 引用 。 





事实 上 ， 在 此 情况 下 会 有 一 个 问题 : 因为 链接 会 映射 至 inode， 而 inode number 专属 
于 特定 的 文件 系统 ,所 以 /erc/ecustoms 与 /ar/rundledger 必须 位 于 相同 的 文件 系统 ,在 
单一 文件 系统 中 , 可 能 会 有 大 景 的 链接 指向 任何 给 定 的 文件 。 唯一 的 限制 是 用 于 保存 链 
接 数 量 的 整数 数据 类 型 的 大 小 。 这 些 链 接 中 ， 设 有 一 个 链接 是 “最 初 的 ”或 “主要 的 - 
链接 。 所 有 这 些 链 接 均 享有 同样 的 状态 : 指 问 同一 个 文件 。 


我 们 称 这 种 类 型 的 链接 为 看 链接 (hard link)。 文 件 可 能 具有 和 零 个 、 一 个 或 多 个 链接 。 多 
数 文件 都 会 共有 值 为 1 的 链接 计数 一 一 也 就 是 会 有 一 -个 目录 项 指向 它们 ， 但 是 有 些 文 
件 具 有 两 个 甚至 多 个 链接 。 文 件 坷 有 具有 值 为 0 的 链接 计数 ,表示 它 在 文件 系统 上 并 没 
有 相应 的 目录 项 。 当 一 个 文件 的 链接 计数 变 为 0 时 ,该 文 件 就 会 被 标记 为 释放 (free)， 
所 以 它 的 磁盘 块 可 供 再 利用 ( 注 4)。 然 而 , 此 类 文件 仍 可 能 存在 于 文件 系统 上 ， 如 来 有 
任何 进程 已 经 打开 该 文件 的 话 。 一 旦 无 任何 进程 打开 该 文件 ， 该 文件 就 会 被 移 除 。 


注 4: 找 出 链接 计数 为 0 而且 相应 块 被 标记 为 已 分 配 的 文件 是 文件 系统 检查 程序 fsck 的 主要 
工作 。 如 果 一 个 文件 被 删除 ,但 是 仍 维持 打开 的 状态 . 而 且 在 访 文 件 被 关闭 之 前 系统 前 
清 了 ， 便 会 发 生 此 情况 。 内 核 未 能 将 相应 的 文件 系统 志 标 记 成 轰 让 (free)j， 因 此 会 出 现 
不 一 至 的 地 方 。 上 日志 型 文件 系统 可 以 消除 此 业 型 的 错误 。 
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Linux 内 核 是 通过 一 个 链接 计数 以 及 一 个 使 用 计数 (usage coun?) 来 实现 此 行为 有 的。 使 
用 计数 就 是 文件 已 被 打开 的 副本 的 总 数 。 如 果 一 个 文件 的 链接 及 使 用 计数 皆 为 0， 它 了 怠 
会 从 文件 系统 中 被 移 除 。 

另 一 种 链接 类 型 称 为 符号 链接 (sympolic link)。 尽管 此 类 链接 不 具 文 件 系 统 的 映射 , 但 
是 它 有 具有 一 个 在 运行 时 解释 的 较 高 级 指针 ,此 类 链接 可 议 跨 文件 系统 一 一 稻 后 就 会 看 到 。 


link() 系统 调用 原本 是 Unix 的 一 个 系统 调用 ， 现在 是 经 过 POSIX 标准 化 的 系统 调 
用 ， 可 替 现 有 的 文件 创建 一 个 新 链接 ， 
#include <unistd.h> 
int link (const char *oldpath, const char *newpath)})': 
执行 成 功 上 时 ，Link() 会 赫 现 有 文件 oldpath 以 路 径 newpatn 创建 一 个 新 链接 ， 然 
后 返回 6。 完 成 调用 之 后 , olapath 与 newpath 会 指向 同一 个 文件 一 一 事实 上 ,你 
无 法 区 分 哪 一 个 是 反 初 的 链接 。 
执行 失败 时 ， 此 调用 会 返回 -1 并 将 errno 设 定 为 下 面 的 其 中 一 个 值 : 
EACCESS 
进行 调用 的 进程 对 oldpath 中 的 一 个 元 素 不 具 搜 索 权 限 、 或 者 进行 调用 的 进程 
对 包含 newpath 的 目录 不 具有 写 人 权限 。 


EEAIST 

newpath 已 经 存在 一 一 1ink{) 无 法 改写 现 有 的 目录 项 。 
EFAULT 

oldpath 或 newpath 是 一 个 无 效 的 指针 。 
EIQ 

发 生 了 一 个 内 部 的 VO 错误 (这 是 很 严重 的 情况 ! )。 

EDLOOP 

解析 coldpath 或 newpath 的 时 候 遇 到 了 太 多 的 符号 链接 。 

EML LMNK 


oldpath 所 指 阿 的 inode 已 经 达到 了 可 以 指 阿 它 的 链接 数目 上 限 。 
ENAMETOOLONG 
oldpath 或 newpath 太 长 。 
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ENOENT 
oldpath 或 newpath 中 有 一 个 元 素 不 存在 。 


ENOMEM 

内 存 的 可 用 空间 不 是 以 完成 此 项 请 求 。 
ENOSPC 

包含 newpath 的 设备 已 无 空间 用 于 存放 新 的 目 孙 项 。 
ENOCTDIR 

oldpath 或 newpath 中 有 一 个 元 素 不 是 目 求 。 


EPERM 
包含 newpath 的 文件 系统 不 允许 创建 新 的 硬 链接 ,或 者 oldpatnh 十 一 个 目 好 ， 
EROFS 


newpath 位 于 只 读 文 件 系 统 上 。 


EXDEV 
newpath 与 oldpath 位 于 不 同 的 经 挂 载 的 文件 系统 上 《Linux 克 放 单一 文件 夭 
统 于 多 个 地 点 被 挂 载 ， 不 过 硬 链 接 是 无 法 跨越 挂 载 点 创建 的 )。 


下 面 的 例子 会 创建 一 个 新 的 目录 项 pirate, 它 会 指向 现 有 文件 privateer 所 指向 的 inode 
(因此 是 同一 个 文件 )， 它 们 都 会 被 放 在 /home/kidd 之 下 : 


imt ret; 


-A 

* 创建 新 的 目录 项 

* /hnome/kidd/pirate， 它 会 指向 

* jhome/kidd/privateer 所 指向 的 inode 


wy 


ret = link "yhome/kidd/privateer", /homer/kidd/pirate"): 
if (ret) 
Perror ("link"):; 


符号 链接 

符号 链接 又 称 为 软 链接 (sofi link) , 同 硬 链 接 一 样 ， 它 也 会 指向 文件 系统 中 的 文件 。 写 
与 硬 链接 的 差别 在 于 ， 符 号 链接 不 仅 是 一 个 额外 的 目录 项 ， 也 是 一 个 特殊 类 型 的 文件 。 
这 个 特殊 的 文件 中 包含 了 另 一 个 文件 的 路 径 名 称 ， 这 称 为 符号 链接 的 目标 (target) 。 运 
行 时 , 内 核 会 以 目标 的 路 径 名 称 来 取代 符号 链接 的 路 径 名 称 (除非 你 使 用 的 是 名 称 前 组 
字母 ] 的 系统 调用 , 例如 lstat 1{), 在 此 情况 下 才 会 使 用 链接 本 身 的 路 径 名 称 ) 。 因 
此 , 虽然 你 很 难 区 分 一 个 硬 链 援 与 指向 相同 文件 的 男 一 个 硬 链 接 , 但 是 你 却 很 容易 区 分 
一 个 符号 链接 与 它 的 目标 文件 。 
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一 个 符号 链接 的 路 径 可 以 是 相对 的 或 是 绝对 的 , 它 也 可 以 包含 稍 早 所 提 到 的 "目录 ( 代 
表 它 所 处 的 目录 ) 或 是 “..” 目录 (代表 此 目录 的 父 上 且 录 )。 


与 硬 链 接 不 同 的 是 , 软 链 接 可 以 跨越 文件 系统 。 事实 上 , 它们 可 以 指向 任何 地 方 ! 符号 
链接 可 以 指向 现 有 的 文件 (普遍 的 做 法 ) 或 指向 不 存在 的 文件 。 后 者 的 链接 类 型 称 为 虚 
基 和 罕 号 链接 (dangling symlink)。 有 时 ， 虚 基 符 号 链接 是 不 受 欢迎 的 一 一 例如 链接 的 
目标 被 删除 ， 但 是 符号 链接 并 未 被 删除 不 过 有 时 这 是 故意 的 。 


用 于 创建 行 号 链接 的 系统 调用 与 它 的 硬 链 接 表 亲 非 常 相似 ; 





#incslude <unistd.hs> 
int svymlink (conet char *oldpath, congst char *newpath); 
执行 成 功 时 ，symlink{) 会 创建 一 个 指向 目标 oldpath 的 符号 链接 newpath ， 然 
后 会 返回 0。 
发 生 错误 时 ，symlink() 会 返回 -1 并 将 errno 设 定 为 下 面 的 其 中 一 个 值 ， 
EACCESS 
进行 调用 的 进程 对 coldpath 中 的 一 个 元 素 不 具 搜 索 权 限 ， 或 者 进行 调用 的 进程 
对 包含 newpath 的 目录 不 具有 写 人 权限 。 
EEAXIST 
newpath 已 经 存在 


EFAULT 
oldpath 或 newpath 是 一 个 无 效 的 指针 。 





symink1{) 无 法 改写 现 有 的 目录 项 。 


EIO 

发 生 了 一 个 内 部 的 MO 错误 (这 是 很 严重 的 情况 ! )。 
ELOOP 

解析 oldpath 或 newpatn 的 时 候 遇 到 了 太 多 的 符号 链接 。 
.EMLINK 

oldpath 所 指 问 的 inode 已 经 达到 了 可 以 指向 它 的 链接 数目 上 限 。 
ENAMETOOLONG 


oldpath 或 newpath 太 长 。 


ENOENT 
oldpath 或 newpath 中 有 一 个 元 素 不 存在 。 
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ENOMEM 
内 存 的 可 用 空间 不 足以 完成 此 项 请 求 。 
ENOSPC 
包含 newpath 的 设备 已 无 空 旧 可 用 于 存放 新 的 目 孙 项 。 
ENOTDIR 
oldpath 或 newpath 中 有 一 个 元 素 不 是 目录 。 
EPERM 
包含 newpath 的 文件 系统 不 允许 创建 新 的 符号 链接 。 
EROFS 


newpath 位 于 只 读 文 件 系统 上 。 
下 面 这 段 范例 程序 代码 如 同 前 面 的 例子 ， 但 是 它 会 将 Mhome/kidd/pirate 创建 成 指向 
Ahomerdkidd/privateer 的 特写 链接 (相对 于 硬 链 接 而 言 ): 

imnt Tet; 

二 
* 创建 一 个 符号 链接 


* home/kidd/pirate, 
* 它 会 指 间 /home/kidd/privateer 


pe 
1 

ret = symilink ("rhome/kidd/privateer", "/home/kidd/plrate"): 

if {iret} 


Perror "sym]link"):; 


创建 链接 (linking) 的 反 向 操作 就 是 解除 链接 (unlinking) ， 也 就 是 从 文件 系统 中 移 除 
其 路 径 名 称 。unlLink1() 系统 调用 可 以 完成 此 工作 ; 
#include <unistd.h> 


int unlink (conat char *pathname): 


执行 成 功 时 ，unlink() 会 从 文件 系统 中 删除 pathname 并 且 返 回 0。 如 果 此 名 称 是 
对 文件 的 最 后 一 个 引用 ， 则 该 文件 会 从 文件 系统 中 被 删除 。 然而, 如果 有 一 个 进程 已 经 
打开 该 文 件 ， 则 内 核 不 会 从 文件 系统 中 删除 该 文件 , 除非 进程 关闭 该 文件 。 一旦 没有 任 
何 进 程 打 开 访 文件， 该 文件 就 会 被 删除 。 


如 果 pathnname 引用 了 一 个 符号 链接 ， 则 链接 本 身 (而 不 是 目标 ) 被 破坏 。 
如 来 pathname 引用 了 另 一 个 业 型 的 特殊 文件 ， 例 如 一 个 设备 、FIFO 或 socket， 则 
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特殊 文件 会 从 文件 系统 中 被 称 除 ， 但 是 已 经 打开 该 文件 的 进程 可 以 继续 使 用 它 。 
发 生 错 误 时 ，unlink() 会 返回 -1 并 将 errno 设 定 为 下 面 的 其 中 一 个 错误 代码 ; 
EACCESS 
进行 调用 的 进程 对 pathname 的 父 进 程 不 具有 写 人 权限 , 或 者 进行 调用 的 进程 对 
pathname 中 的 一 个 元 素 不 具有 搜索 权限 。 
EFAULT 
pathname 是 一 个 无 效 的 指针 。 
EIO 
发 生 了 一 个 VO 错误 (这 是 一 个 严重 的 情况 ! )。 
EISDIR 
pathname 5 引用 了 一 个 目 永 。 
ELOOP 
解析 pathname 的 时 候 遇 到 了 太 多 的 符号 链接 。 


ENAMETOOLONG 
pathname 太 长 。 


ENOENT 
pathname 中 有 一 个 元 素 不 存在 。 
ENOMEM 
内 存 的 可 用 空间 不 足以 完成 此 项 请 求 。 
ENOTDIR 
pathname 中 有 一 个 元 素 趟 是 目录 。 
be EM 
系统 不 允 计 解除 文件 的 奋 接 。 
EROF'S 
pathname 位 于 只 读 文 件 系 统 上 。 
unlink() 无 法 移 除 目录 。 要 完成 此 事 , 应 用 程序 应 该 使 用 xmair (), 参见 稍 早 在 移 
除 上 且 录 ”一 市 的 讨论 。 
为 了 避免 肆意 破坏 任何 类 型 的 文件 ，C 语言 提供 了 remove () 消 数 ; 
#include <atdio.h> 


int remove (congst char *path}: 
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执行 成 功 时 ，remove() 会 从 文件 系统 中 删除 path 并 且 会 返回 0。 如 果 path 是 一 
个 文件 , 则 remove () 会 调用 unlink(); 如果 path 是 一 个 目录 , 则 remove() 会 
调用 rmdirt{)。 

发 和 错误 上 时, remove ()】 会 返回 -1 并 将 errno 设 定 为 适当 的 值 , remove () 的 有 效 
错误 代码 如 同 unlink() 以 及 rmdir1() 的 。 


文件 的 复制 以 及 移动 

文件 的 复制 (copying) 以 及 移动 (moving) 是 两 个 最 基本 的 文件 操作 , 一般 古 由 cp 以 
及 my 命令 来 完成 。 就 文件 系统 层 而 言 ， 复制 就 是 将 特定 文件 的 内 容 找 贝 成 一 个 新 路 和 伍 
名 称 的 动作 。 这 不 同 于 对 创建 文件 的 新 硬 链接 , 改变 一 个 文件 不 会 影响 另 一 个 文件 ， 也 
就 是 说 ,现在 该 文件 存在 两 个 不 同 的 副本 , 而且 (至 少 ) 具有 两 个 不 同 的 目录 项 。 反 过 
来 说 , 移动 就 是 替 一 个 文件 的 目录 项 进行 更 名 的 动作 。 此 动作 的 结果 不 是 创建 第 二 个 副 
本 。 


复制 

有 些 人 可 能 会 感到 惊讶 , Unix 并 未 对 文件 和 目录 的 复制 提供 任何 的 系统 或 链接 库 调 用 。 
事实 上 ， 可 以 手动 使 用 实用 程序 , 例如 cp 或 GNOME 的 Nautilus 文件 管理 程序 , 来 完 
成 这 些 工作 。 


将 一 个 文件 src 复制 成 一 个 名 为 dst 的 文件 ， 步 县 如 下 ， 

I. 打开 src 。 

2. 打开 ast， 如 果 它 尚 不 存在 ， 则 创建 它 ; 如 果 它 已 经 存在 ， 则 将 它 截 短 成 零 长 度 。 
3， 将 src 的 一 个 块 读 进 内 在。 


4. ”将 这 个 块 写 人 dst。 

5， 继续 下 去 ， 直 到 src 的 所 有 内 容 已 经 被 读 取 以 及 写 入 dst。 
6. 关闭 dst， 

7. 甘 团 src。 


如 果 复 制 一 个 目录 , 则 会 由 mkdairt) 创建 该 目录 以 及 和 任何 子 目 录 , 然后 单独 复制 其 中 
的 每 个 文件 。 
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移动 
与 复制 不 同 ，Unix 为 文件 的 移动 提供 了 一 个 系统 调用 。ANSIC 标准 替 文 件 的 移动 引 
进 了 这 个 调用 ， 而 POSIX 则 针对 文件 与 目录 的 移动 将 这 个 调用 标准 化 ， 


#inelude <*stdio.h> 


int .rename {conat char *oldpath, const char *newpath); 


执行 成 功 时 ,rename() 会 将 路 径 名 称 oldpath 更 名 为 newpath。 文 件 的 内 容 与 inode 
则 维持 不 变 。oldpath 与 newpath 必须 位 于 相同 的 文件 系统 ( 注 5); 否则 ， 此 调用 
将 执行 失败 。mv 之 类 的 实用 程序 必须 通过 复制 以 及 解除 链接 来 处 理 此 情况 。 


执行 成 功 时 ，rename() 会 返回 0， 文 件 从 前 被 oldpath 引用 而 现在 被 newpath 引 
用 ,执行 失败 时 ,此 调用 会 返回 -1 ,不 会 动 到 oldpath 或 newpath ,而 且 会 把 errno 
设 定 为 下 面 的 其 中 一 个 值 : 


EACCESS 
进行 调用 的 进程 对 oldpath 或 newpath 的 父 有 目录 不 具有 写 人 权限 ,对 oldpath 
或 newpatnh 的 一 个 元 素 不 具有 搜索 权限 ， 或 者 对 oldpath 具有 写 人 权限 但 是 
oldpath 是 一 个 目录 。 最 后 一 种 状况 是 因为 ， 如 果 oldpath 是 一 个 且 录 ， 则 
rename() 必须 更 新 oldpath 中 的 “..”。 

EBUSY 
coldpath 或 newpath 是 一 个 挂 载 点 。 

EFAULDL'T 
oldpath 或 newpath 是 - 小 无 效 的 指针 。 

EINVALDL 
newpath 被 也 含 在 oldpath 中 ， 因 此 把 oldpath 更 名 为 newpath 会 使 得 
oldpath 变 成 自己 的 子 目录 。 : 

EISDUIR 
newpatnh 存在 向 且 古 一 个 有 自 录 , 但 是 oldpath 不 是 一 个 目录 。 

ELOOP 
解析 oldpath 或 newpath 的 时 候 遇 到 了 太 多 的 符号 链接 。 


注 5: 尽管 Linux 万 许 你 在 目 对 结构 的 多 个 挂 载 点 上 挂 载 设备 ,但 你 还 是 无 法 将 这 些 挂 载 点 的 
其 中 一 个 更 名 为 噶 一 个 ， 即 使 它们 的 背后 是 相同 的 设备 。 
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EMTLTM 
oldpath 已 经 到 达 了 本 身 的 链接 数目 上 限 , 或 者 oldpatah 是 一 个 目录 而 且 
newpath 已 经 到 达 了 本 身 的 链接 数目 上 限 。 

ENAMETOOQLONG 
oldpath 或 newpath 太 长 。 


ENOENT 
oldpath 或 newpath 中 有 一 个 元 素 不 存在 ， 或 者 是 一 个 虚 悬 符号 链 搂 。 
ENOMEM 
内 核 内 存 的 可 用 空间 不 足以 完成 此 项 请 求 。 
ENOSPC 
设备 上 的 可 用 空间 不 足以 完成 此 项 请 求 。 
ENOTDIR 


oldpath 或 newpath 中 的 一 个 元 素 (可 能 的 最 终 元 素 除外 ) 不 是 目录 ， 或 者 
oldpath 是 一 个 目录 ， 而且 newpath 存在 但 不 症 一 个 目 采 。 

ENOTEMPTY 
newpath 是 一 个 目录 ,但 不 是 空 的 。 

EPERM 
参数 中 所 指定 的 路 径 中 至 少 有 一 个 存在 ， 父 目录 设 定 了 sticky 位 ， 进 行 调用 的 进程 
的 有 效用 户 ID 既 不 是 文件 的 用 户 ID , 也 不 是 父 进程 的 用 户 ID, 以 及 进程 不 具有 特权 。 


EROFS 
文件 系统 被 标记 为 只 读 。 
EXDEV 


oldpath 与 newpath 位 于 不 同 的 文件 系统 上 。 
表 7-1 整理 出 了 移动 对 各 种 类 型 的 文件 所 造成 的 影 啊 。 
表 7-1; 移动 对 各 种 类 型 的 文件 所 造成 的 影响 
目的 地 是 一 个 文件 “目的 地 是 一 个 目录 目的 地 是 一 个 路 径 目的 地 不 存在 


来 源 是 一 目的 地 会 被 来 源 执行 失败 并 返回 文件 被 更 名 而 且 文件 被 更 名 
个 文件 改写 EISDIR 目的 地 被 改写 
来 源 是 一 执行 失败 并 返回 如 果 目 的 地 是 空 的 ,目录 会 被 更 名 ,而 目录 会 被 
个 目录 ENOTDIR 则 来 源 会 被 更 名 成 且 目 的 地 会 被 改写 ”更 名 
目的 地 ; 否则 ， 会 
执行 失败 并 返回 


ENOTEMPLY 
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表 7-1: 移动 对 各 种 类 型 的 文件 所 造成 的 影响 〈 续 表 ) 


目的 地 是 一 个 文件 ”目的 地 是 一 个 目录 目的 地 是 一 个 路 径 ”目的 地 不 存在 
来 源 是 一 ”链接 会 被 更 名 而 且 ”执行 失败 并 返回 链接 会 被 更 名 而 且 ”链接 会 被 更 名 


个 链接 目的 地 会 被 改写 EISDIR 目的 地 被 改写 
来 源 不 存 执行 失败 并 返回 执行 失败 并 返回 执行 失败 并 返回 执行 失败 并 返回 
在 ENOENT ENOENT ENOENT ENOENT 


如 时 来源 与 且 的 地 位 于 不 同 的 文件 系统 , 则 以 上 所 有 情况 均 与 它们 的 类 型 无 关 , 执行 会 
失败 并 返回 EXDEV。 


设备 市 点 


设备 节点 (device node) 是 一 种 特殊 文件 ， 应 用 程序 可 以 通过 它 连接 设备 驱动 程序 
(device driver)。 当 一 个 应 用 程序 在 一 个 设备 市 点 上 执行 平常 的 Unix VO (打开 、 关闭 ， 
读 取 、 写 入 等 ) 时 ,内 核 并 不 会 像 一 般 文 件 WO 那样 来 处 理 那 些 请 求 。 事 实 上 ， 内核 会 
将 此 类 请 求 传递 给 一 个 设备 驱动 程序 .设备 驱动 程序 会 处 理 访 IO 操作 并 将 结果 返回 给 
用 户 。 设 备 节点 所 提供 的 设备 抽象 层 让 应 用 程序 不 需要 熟悉 设备 的 具体 情况 ,甚至 不 需 
要 掌握 特殊 的 接口 。 的 确 ， 在 Unix 系统 上 ， 设 备 节点 是 访问 硬件 的 标 崔 机 制 。 网 络 设 
备 是 罕见 的 例外 ， 而 且 在 Unix 的 历史 中 ， 对 此 例外 是 否 为 错误 有 些 争 论 。 使 用 
read(), write() 以 及 mmap {) 等 调用 来 操纵 一 个 机 器 的 所 有 硬件 ， 的 确 具 有 一 种 
优雅 的 美感 。 


内 核 如 何 辨 别 应 该 由 哪个 设备 驱动 程序 来 处 理 请 求 ? 每 个 设备 玉 点 会 被 赋予 两 个 数值 ， 
称 为 主要 编号 {major number) 以 及 次 要 编号 (minor number)。 这 些 主要 和 次 要 编号 
会 映射 至 被 加 载 进 内 核 的 特定 设备 驱动 程序 。 如 果 一 个 设备 节点 所 有 具有 的 主要 和 次 要 编 
号 并 未 映射 至 内 核 内 部 的 设备 驱动 程序 一 一 会 因为 各 种 原因 宽 然 发 生 此 情况 ， 则 设备 
节点 上 的 一 个 open () 请 求 会 返回 -1 并 且 将 errno 设 定 为 ENODEV。 我 们 说 ， 此 设 
备 节 点 面 对 了 不 存在 的 设备 。 


特殊 设备 节点 
特殊 设备 节点 存在 于 所 有 Linux 系统 上 。 这 些 设备 节点 是 Linux 开发 环境 的 一 部 分 ， 
而 且 它 们 的 存在 被 视 为 Linux ABI 的 一 部 分 。 


null 设备 ， 主 要 编号 为 1， 次 要 编号 为 3， 位 于 /Laevwnall。 此 设备 文件 的 拥有 者 应 该 是 
root 而 且 可 供 所 有 用 己 谈 取 和 写 人 。 内 核 会 默默 丢弃 针对 该 设备 文件 的 所 有 写 人 请 求 。 
针对 该 设备 文件 的 所 有 读 取 请 求 ， 内 核 会 返回 end-of-file (EOF ) 。 
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zero 设备 位 于 /dev/zero ， 它 的 主要 编号 为 1， 次 要 编号 为 5。 如 同 null 设备 ， 内 核 会 
默默 丢弃 针对 zero 设备 的 所 有 写 人 请 求 。 针 对 该 设备 的 读 取 请 求 ， 内 核 会 返回 null 字 
节 的 无 穷 流 。 


full 区 备 ， 主 要 网 号 为 1， 次 要 网 号 为 7， 位 于 /dewjal 。 如 同 zero 设备 ， 内 核 会 针对 
该 设备 的 读 取 请 求 返 回 null 字符 (\0)。 然 而 ， 写 人 请 求 总 是 会 触发 ENOSPC 错误 ， 
以 便 指 出 用 层 的 谎 备 已 广 。 


这 些 设 备 的 用 途 各 有 不 同 。 它 们 可 用 于 测试 一 个 应 用 程序 如 何 处 理 一 些 极限 的 问题 一 一 
例如 一 个 被 填 满 的 文件 系统 。 因 为 null 和 zero 设备 会 忽略 写 人 操作 ， 所 以 它们 也 是 一 
种 不 具有 任何 开销 的 丢弃 多 余 MO 的 方法 。 


随机 数 产生 器 


内 核 的 随机 数 产 生 器 设备 位 于 [dewranaom 以 及 /dev/urandom 。 它 们 的 主要 编号 为 1， 
次 要 编号 分 别 为 8 和 9。 


内 核 的 随机 数 产 生 器 会 从 设备 驱动 程序 以 及 其 他 源头 收集 noise ( 厅 乱 的 数据 ), 而 且 内 
核 会 把 收集 到 的 noise 连接 在 一 起 并 对 其 进行 单 向 散 列 运算 。 所 得 到 的 结果 会 被 存 人 一 
个 炉 池 (entropy pool)。 内 核 会 不 断 估算 池 中 灶 的 位 数目 。 


污 取 /aewrandom 会 从 此 池 返 回炉 。 这 些 结果 可 作为 随机 数 产 生 器 的 种 子 ， 产 生 密 钥 ， 
并 且 进 行 加 密 以 强化 炉 的 其 他 必要 工作 。 


理论 上 , 敌人 可 以 从 籽 姥 得 足够 的 数据 , 而 且 成 功 破解 单 向 散 列 就 可 以 知道 籽 其 余 
的 状态 。 然 而 此 类 攻击 目前 只 是 理论 上 可 能 并 未 昕 说 发 生 过 此 类 攻击 ， 内 核 要 降 
低 这 个 可 能 性 ， 可 以 对 每 个 读 取 请 求 递减 好 中 的 估算 数量 。 当 估算 数量 为 0 时 ， 读 
取 请 求 将 受到 阻挡 ， 除 非 系统 产生 更 多 的 焕 而 且 信 的 估算 数量 足以 完成 读 取 请 求 。 





/deviurandom 不 具 此 特性 , 即使 内 核 的 粮 估算 量 不 足以 完成 读 取 请 求 , 读 取 此 设备 仍 会 
成 功 。 因 为 上 只 有 最 讲究 安全 的 应 用 程序 一 一 例如 在 GNU Privacy Guard 中 为 了 数据 交 
换 鸭 安全 和 而 产生 帘 钥 , 才 应 该 关心 以 加 密 强 化 彤 的 事情 , 多 数 应 用 程序 应 读 使 用 /dev / 
urandom 和 而 不 使 用 /dewrandom。 如 果 没 有 LO 活动 可 以 提供 noise 给 内 核 的 粮 池 ， 则 
攻取 请 求 可 能 会 被 阻挡 非常 和 久 的 时 间 。 这 通常 会 发 生 在 diskless (无 磁盘 驱动 器 )、 
headless 【译注 1) 服务 器 上 ， 


天 汪 1: headless 一 般 是 指 浊 有 屏幕 、 键 盘 或 筷 标 ， 
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带 外 通信 
Unix 的 文件 模型 令 人 印象 深刻 。 只 需要 进行 简单 的 读 取 和 写 入 操作， 理论 上 Unix 几 
平 就 可 以 对 一 个 对 象 进 行 任何 可 以 想象 得 到 的 行为 。 然 而 ,有些 时 候 , 程序 设计 者 需要 
与 主要 数据 流 以 外 的 文件 通信 。 举 例 来 说 , 考虑 一 个 捉 行 端口 设备 。 读 取 读 设备 就 等 于 
读 取 位 于 串 行 端口 的 远 端 的 硬件 , 写 入 数据 到 该 设备 就 等 于 传送 数据 到 该 硬件 。 一 个 进 
程 如 何 读 取 串 行 站 口 的 状态 脚 位 ， 例 如 数据 终端 环线 《data terminal ready， 销 简写 为 
DTR) 信和 号?” 另外 ， 一 个 进程 如 何 完成 串 行 锅 口 的 奇偶 校 验 位 (parity) 设 定 ? 


答案 就 是 使 用 ioct1l1) 系统 调用 。iocti() ,和 代表 VO control (输入 输出 控制 )， 可 
进行 带 外 通信 (our-of-band communication): 


#include <gyY8a/ioctl.h> 


int ioctl {int faa， int redquest., Se 
此 系统 调用 需要 两 小 参数 : 


fq 
一 个 文件 的 文件 描述 符 。 

redoquest 
一 个 特殊 的 请 求 代码 值 ， 经 过 内 核 与 进程 的 预定 六 与 同意 ， 指 出 可 以 对 fa 所 引 
用 的 文件 采取 何 种 行动 。 

它 还 可 以 接受 一 个 或 更 多 个 可 有 可 无 的 参数 (通常 是 无 符号 的 整数 或 指针 )， 然 后 传递 

给 内 核 。 : 


下 面 的 程序 会 使 用 CDROMEJECT 请 求 弹出 (用 户 在 程序 命令 行 的 第 一 个 参数 所 提供 的 ) 
CD-ROM 设备 的 媒体 托盘 。 因 此 ， 这 个 程序 的 功能 如 同 标准 的 eject 命令 : 


#4include <sys/types.h> 
#1include <sys/stat.h> 
#1cClude <icntl .hs 
Hinclude <Sys/ioctl .hy 
#include <unistd.h> 
finclude <linux/cdrom.h> 
tinclude <stAdio.h> 


int main {int argce, char *argv||)} 
t 

int fd, ret: 

if {argc < 2) { 


forintf (stderr, 
"USdage: $5 <device to eject»>h\n"., 
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argv[o]}; 
return 1; 


六 
* 以 只 读 模 式 打开 CD-ROM 设备 。0_NONBLOCK 用 于 通知 内 楼 ， 
* 即使 设备 中 没有 媒体 ， 我 们 也 要 打开 该 设备 。 
wf 
fd = open largv[l1}), oO_RDONLY | O_NONELOCEK):; 
if (fd < 0}) 1 
Perror lI"opPpen"):; 
TetUrn 1; 
1 


/+ 给 CD-ROM 设备 送出 弹出 命令 。 * 7/ 
ret = ioctl {td, CDOROMEJECT, 0); 
1f (ret} 1 

perror ("ioctl1"); 

return 1:} 


ret = close (td); 

if (ret) + 
Perror ("close"),; 
return 1:; 


return 0; 
} 
CDROMEJECT 请 求 是 Linux 的 CD-ROM 设备 驱动 程序 所 提供 的 一 个 功能 。 当 内 柜 收 
到 一 个 ioct1l() 请 求 时 , 它 会 找 出 负责 处 理 所 提 供 文 件 描述 符 的 文件 系统 (对 第 规 文 
件 而 言 ) 或 设备 驱动 程序 (对 设备 方 点 而 言 )， 然 后 将 请 求 传递 给 它们 处 理 。 就 此 例 而 
言 ，CD-ROM 设备 驱动 程序 会 收 到 请 求 并 且 实 际 弹 出 光驱 。 


本 章 稍 后 我 们 将 看 到 一 个 ioct1() 的 例子 ,这 个 例子 会 使 用 一 个 可 选 参数 返回 信息 给 
发 出 请 求 的 进程 。 


监视 文件 事件 

Linux 提供 了 一 个 接口 inotifyv， 用 于 监视 文件 一 一 例如， 监视 文件 何 时 被 移动 、 读 取 . 
写 信 或 删除 。 假设 你 正在 编写 一 个 图 形 化 文件 管理 程序 , 例如 GNOME 的 Nautilus。 当 
Nautilus 正在 显示 一 个 目录 的 内 容 时 ， 如果 有 一 个 文件 被 复制 到 该 目录 ， 则 文件 管理 程 
序 所 看 到 的 目录 与 实际 的 目录 会 出 现 不 一 致 的 现象 。 


一 个 解决 方案 就 是 不 断 重读 目录 的 内 容 , 检测 变动 以 及 更 新 所 显示 的 内 容 。 这 会 带 来 一 
个 周期 性 的 开销 ， 所 以 古 一 个 有 缺陷 的 解决 方案 。 更 精 粒 的 是 , 一 个 文件 从 目录 被 移 除 
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或 被 加 入 目录 与 文件 管理 程序 重新 读 取 目 录 的 内 容 之 间 往 往 是 一 种 范 争 夫 系 。 


使 用 inotify, 内 核 可 以 在 事件 发 生 的 瞬间 通知 应 用 程序 。 文 件 一 被 删除 ,内核 束 会 通知 
Nautilus。 而 Nautilus 的 响应 就 是 立即 从 目录 的 图 形 化 显示 中 移 除 被 删除 的 文件 。 

多 数 其 他 的 应 用 程序 也 会 对 文件 事件 有 兴趣 。 现 在 考虑 一 个 备份 实用 程序 或 者 一 个 数据 
索引 工具 。inotify 让 这 两 个 程序 可 以 进行 实时 的 操作 : 在 一 个 文件 被 创建 、 删除 或 写 入 
的 瞬间 ， 这 两 个 工具 分 别 可 以 更 新 备份 归档 文件 (backup archive) 或 数据 索 3| (data 
index ) 。 

inotify 用 于 取代 dnonify 这 个 采用 第 重信 号 接口 的 较 早期 文件 监视 机 制 , 相 较 于 dnotify ， 
应 用 程序 应 该 优先 采用 inotify。inotify ， 引 进 自 内 核 2.6.13 版 ， 不 仅 灵 活 而 且 容 易 使 
用 ,因为 程序 对 常规 文件 所 进行 的 操作 一 一 尤其 是 select 1{) 与 po11() 一 一 可 以 跟 
inotify 一 起 运作 。 本 书 只 会 提 到 inotify。 


初始 化 inotify 
在 一 个 进程 可 以 使 用 inotify 之 前 ， 读 进程 必须 对 它 进行 初始 化 。inotify_init() 
系统 调用 可 用 于 初始 化 inotify 并 返回 一 个 代表 已 初始 化 实例 的 文件 描述 符 ， 

#include <inotify,.h> 


int inotify init (void); 


发 生 错 误 时 ，inotify_init1() 会 返回 -1， 而且 会 将 errno 设 定 为 下 面 的 其 中 一 个 值 ; 


EMF LILE 

已 经 到 达 了 inotify 实例 数目 上 限 的 每 用 户 限 制 (per-user limit) 。 
ENFILE 

已 经 到 达 了 文件 描述 符 数 上 月 上 限 的 全 系统 眼 制 (system-wide limit)。 
ENOMEM 


内 存 的 可 用 空间 不 足以 完成 此 项 请 求 。 
i 让 上 我们 初始 化 inotify ， 这 样 我 们 才 可 以 在 后 续 的 步骤 使 用 它 : 
int fi; 
fd = inotify_init 1{}; 
if fd == -1} 1 


Perreor ("notifyw_init"):; 
exXlt EXIT_ FAITLURE):; 
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监视 项 目 

一 个 进程 初始 化 inotify 之 后 ， 接 着 会 设置 监视 项 目 (wartches)。 一 个 监视 项 目 会 被 表 
示 成 一 个 监视 描述 符 (watch descriptor)， 它 是 一 个 标准 的 Unix 路 径 以 及 一 个 相关 联 
的 监视 掩 码 (watch mask)， 用 于 告知 内 核 进程 感 兴 趣 的 是 哪些 事件 一 一 例如， 读 取 、 
写 人 或 者 这 两 者 。 

inotify 可 以 监视 文件 与 目录 。 如 果 要 监视 一 个 目录 ，inotify 会 报告 该 目录 (以 及 该 目 
录 所 包含 的 任何 文件 ) 上 所 发 生 的 事件 (但 是 不 包含 被 监视 目录 的 子 目录 里 的 文件 一 一 
监视 操作 不 具 递 归 性 )。 


加 入 一 个 新 的 监视 项 目 
系统 调用 ijnotify_add_watch() 可 以 为 path (文件 或 目录 的 ) 上 的 mask 所 描 
述 的 事件 加 入 一 个 监视 项 目 至 £9 所 表示 的 inotify 实例 ; 

#include <inotify.h> 


int inotify add watch (int fa, 
Onst char *path, 
uint32 t mask); 


执行 成 功 上 时，inotify_add_watch() 会 返回 一 个 新 的 监视 描述 符 ; 执行 失败 时 , 此 
调用 会 返回 -1， 并 且 会 将 errno 设 定 为 下 面 的 其 中 一 个 值 ， 


EACCESS 
不 允许 读 取 path 所 指定 的 文件 。 进 行 调用 的 进程 必须 能 够 读 取 该 文件 ， 这 样 才 
能 对 它 加 入 一 个 监视 项 目 。 

BADF 
文件 描述 符 fa 不 是 一 个 有 效 的 inotify 实例 。 

FFAULT 
path 不 是 一 个 有 效 的 指针 。 

ELINVAL 
监视 掩 码 mask 包含 无 效 的 事件 。 

ENOMEM 
内 存 的 可 用 空间 不 足以 完成 此 项 请 求 。 

ENOSPC 


已 经 到 达 了 inotify 实例 数目 上 限 的 每 用 户 限 制 。 
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监视 掩 码 
监视 掩 码 就 是 一 个 或 多 个 inotify 事件 的 二 元 OR 运算 ， 这 些 inotify 事件 定义 于 
<inotify.h>: 
IN_ACCESS 
读 取 白文 件 。 
IN MODIFY 
写 人 至 文件 。 
lIN_ATIRIB 
文件 的 元 数据 (例如 ， 拥 有 者 、 使 用 权限 或 扩展 属性 ) 被 改变 。 
IN_CLOSE WRITE 
文件 被 关闭 ， 而 且 已 经 打开 以 备 写 人 。 
IN CLOSE_NOWRITE 
文件 被 关闭 ， 而 且 并 未 打开 以 备 写 人 。 


IN_OPEN 
文件 被 打 间 ， 
IN_ MOVED_FROM 
一 个 文件 从 所 监视 的 目录 中 被 移 开 。 
IN_MOVED_TO 
一 个 文件 被 移 往 所 监视 的 目录 。 
IN CREATE 
一 个 文件 被 创建 在 所 监视 的 目录 中 。 
IN DELETE 


一 个 文件 从 所 监视 的 目录 中 被 删除 。 
IN DELETE SELF 
所 监视 的 对 象 本 身 被 删除 。 
IN_MOVE_SELF 
所 监视 的 对 象 本 身 被 移动 。 
还 会 定义 下 列 事件 ， 可 将 两 个 或 多 个 事件 聚集 成 单一 值 : 
IN_ALL EVENTS 


所 有 合法 的 事件 。 
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IN CULOSE 
与 关闭 相关 (当前 为 IN_CLOSE_WRITE 以 及 IN_CLOSE_NOWRITE) 的 所 有 事 
件 。 

IN MOWVE, 


与 移动 相关 (当前 为 IN_MOVED_FROM 以 及 IN_MOVED_TO) 的 所 有 事件 。 
现在 ， 让 我 们 来 看 如 何 对 一 个 现 有 的 inotify 实例 加 入 一 个 新 的 监视 项 目 ; 


1nt wd; 
wa = inotify adgd_ watch (fd, "/etc", IN_ACCESS IN MODIFY): 
i twd == -1) 1{ 


perror ("inotify_add watch"),; 
exit (EXIT_FAILURE): 
| 
此 范例 会 为 目录 /etc 上 的 所 有 读 取 或 写 人 事件 加 和 一 个 监视 项 目 。 如 果 :etc 中 有 任何 
文件 被 写 人 或 读 取 ，inotify 会 传送 一 个 事件 给 inotify 文件 描述 符 fa， 提供 给 监视 搞 
述 符 wQ。 让 我 们 来 看 看 inotify 如 何 表 示 这 些 事件 。 


Inotify 事件 
inotify_event 结构 定义 于 <inotify.h>， 可 用 于 表示 iaotify 事件 : 
#include <inotify.h> 
struct inotify event { 
int wd; :* Wwatch descriptor */ 
uint32 t mask; /i* mask of events */ 
Uint32_t cookie; /* Uniqme cookie */ 
uint32 t len; /% gize of name' field */ 
char namel[]:; /* nmll-terminated name */ 


}; 


wd 用 于 指定 监视 描述 符 ， 取 自 ijnotify_add_watch{), 而 mask 代表 事件 。 如 果 
wa 指定 了 一 个 目录 ， 而且 要 监视 该 目录 中 一 个 文件 se 则 name 所 
提供 的 文件 名 称 会 相对 十 该 目录 。 在 此 情况 下 ，len 是 一 个 非 零 值 。 请 注意 ，len 不 
同 于 name 的 字符 串 长 底 ,， name 的 结尾 可 能 不 只 一 个 null 字符 , 其 作用 有 如 填充 , 确 
保 后 续 的 inotify_event 能 够 被 正确 对 齐 。 因 此 ， 你 必须 使 用 1en (而 不 要 使 用 
strlen()) 来 计算 一 个 数组 里 下 一 个 inotify_event 结构 的 偏 移 值 。 


举例 来 说 ， 如 果 wa 代表 /home/rlove 并 具有 值 为 IN_ACCESS 的 mask， 而 且 读 取 自 
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文件 Ahome/rlove/canon， 于 是 name 将 等 于 canon， 而 且 len 将 至 少 为 5。 因此 ， 如 
果 我 们 要 以 相同 的 掩 码 值 直接 监视 Wome/rlove/canon, 则 Len 的 值 将 是 0 ,而且 name 
将 是 零 长 度 你 不 可 以 动 它 。 


cookie 用 于 将 两 个 相关 但 分 开 的 事件 连接 在 一 起 。 我 们 稍 后 会 加 以 讨论 。 





读 取 inotify 事件 

取得 inotify 事件 很 容易 ; 你 只 需要 从 与 inotify 实例 相关 联 的 文件 描述 符 读 取 。inotify 
提供 了 一 个 功能 ， 称 为 slurping， 人 允许 你 以 单一 读 取 请 求 读 进 多 个 事件 一 一 直到 提供 
给 read() 的 缓冲 区 被 填 满 。 因为 name 字段 的 长 度 不 定 ， 所 以 这 是 读 取 inotify 事件 
最 常见 的 方式 。 


我 们 之 前 的 例子 创建 了 一 个 inotify 实例 , 而 且 对 该 实例 加 入 了 一 个 监视 项 目 。 现 在 , 让 
我 们 谈 取 台面 未 决 的 事件 : 


char buf[BUF_DEN]_ attribute (‘aligned(d})}),; 
ssize_t len, i = 0; 


+* 读 取 BUF_LEN 个 字 节 的 事件 */ 
len = read {fd, buf, BUF_LEN): 


/* 读 取 每 个 事件 直到 读 完 为 止 */ 
while (i < len} i 
struct inotify event *event = 
(struct inotify event *) gbufli]:; 


Printf ("wdA=%®d maesk=®d cookie=®d len=®d dir=®ea ne", 
event->wd, event->mask, 
event->Cookie, event->len, 
tevent ->mask & IN_ISDIR) ? "yes”™ ; "no"):; 


Y* 如 果 有 一 个 名 称 ， 则 输出 它 */ 
if tevent-»l|en) 
Printf ("name=$%s\n", event->name): 


/* 将 索引 更 新 为 下 一 个 事件 的 开头 */ 
i += SizZeof (stroct inotify_ event}) +1 event->len; 


} 
因为 inotify 文件 描述 符 的 行为 如 同一 个 常规 文件 ， 程 序 可 经 select()、 poll() 以 
及 epoll () 来 监视 。 这 让 进程 可 以 从 单一 线程 使 用 其 他 文件 11O 对 inotify 事件 进行 
多 任务 处 理 。 


CY 
请 


200) 


高 级 inotify 事件 
除了 怀 准 的 事件 ，inoltify 还 可 以 产生 其 他 事件 : 


IN_IGNORED 
wa 所 表示 的 监视 项 目 己 经 被 移 除 。 发 生 此 事件 可 能 是 因为 用 户 手 动 移 除了 监视 项 
目 ， 或 是 因为 所 监视 的 对 象 已经 不 存在 。 稍 后 我 们 将 i 计 论 此 事件 。 
IN_ISDIR 
受 影 响 的 对 象 是 日 录 (如 果 未 设 定 ， 受 影响 的 对 象 是 文件 )。 
IN_Q_ OVERFLOW 
inotify 队列 溢出 。 内 核 会 限制 事件 队列 的 大 小 以 避免 内 核 内 存 被 无 止境 地 浪费 。 
昌林 决 事件 的 数 日 这 上 最 大 值 减 1， 内 核 就 会 产生 此 事件 并 把 它 族 加 到 队列 尾 端 。 
除非 队列 中 的 事件 被 读 走 ， 使 得 它 的 大 小 低 于 限制 ， 否 则 不 会 再 产生 事件 。 
IN_UNMOUNT 
支持 所 监视 对 象 的 设备 被 利 载 。 因此 , 该 对 象 不 再 可 用 , 内 核 将 移 除 监 视 项 日 并 产 
牛 IN_IGNORED 事件 。 
任何 监视 项 日 胡可 以 产生 这 些 事 件 ， 用 户 并 不 需要 显 式 设 定 它们 。 


柱 序 议 计 者 必须 将 mask 视 为 未 决 事件 的 :个 位 撼 人 色 。 因 此 ， 不 要 使 用 等 效 的 直接 出 
起来 丛 但 事件 ; 


凡生 古本 文 雪 做 1 wi 


it ewent ->=mask == 1N MODLFY) 
Erintf (“File was written Lo!l\n"). 
else 1f feovenl-. smask =- IN_O OVERFLOW) 


printil ("Oops, dueue over[lowed!\n).:; 


而 要 进行 过 位 测试 : 


if (fevent-=mask & 1N ACCESS) 

Printt ff"The Elile was read from!l\n"}: 
i ievent -smask & TN_UNMOUNTELD) 

PrintEf {rT Eile's hackirnw device wis unmourtead! Arr) ， 
i fewventl ->mask & TN_IS3DTR) 

printf ("Th file is a direclLorv!\ nr")s 


链接 移动 事件 

TIN-MOVED_FROM 以 及 IN_MOVED_TO 事件 只 代表 整个 移动 操作 的 =: 半 : 前 者 代表 从 
特定 的 位 牌 移出 ,而 后 者 代表 米 到 一 个 新 位 置 。 因 此 ,对 十 一 个 企图 智能 追踪 文件 的 种 
序 , 当 文件 在 文件 系统 上 移动 时 (考虑 一 个 不 会 对 移动 过 的 文件 进行 重新 索引 的 索 别 程 
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序 )， 真 正 有 用 的 做 法 是 将 这 两 个 移动 事件 链接 在 一 起 。 加 入 inotify_event 结构 
中 的 cookie 字段 。 


cookie 字段 , 如 果 是 韭 零 值 , 则 包含 了 一 个 链接 起 两 个 事件 的 唯一 值 。 考 虑 一 个 正在 

Apin L ， Asbin 的 进程 。 假 设 /bin 有 一 个 值 为 7 的 监视 描述 符 ， 而 Abin 有 一 个 值 
为 8 的 监视 描述 符 。 如 果 文 件 VBinyeompass 被 移 往 Aspin/compass， 则 内 核 会 产生 两 个 
inotify 事 付 : 。 


第 一 个 事 任 的 wd 等 于 7 了 7，mask 等 丁 IN_MOVED_PFROM， 而 name 等 于 compass。 
第 -个 事件 的 wd 等 于 8, mask 等 于 IN_MOVED_TO, 而 name 等 于 compass。 丰 这 
两 个 事件 中 ，cookie 将 是 相同 的 一 一 例如 12。 


如 条 一 个 文件 被 更 名 ， 则 内 核 仍 会 产生 两 个 事件 。 这 两 个 事件 的 wa 征 相同 的 。 


请 注意 , 如 果 一 个 文件 从 一 个 未 被 监视 的 目录 移 进 或 移出 , 则 进程 将 不 会 收 到 相应 事件 
的 其 中 一 个 。 由 程序 负责 注意 与 cookie 相 匹 配 的 第 二 个 事件 并 未 到 达 。 


高 级 监视 选项 
创建 一 个 新 的 监视 项 目 时 ， 你 可 以 把 下 面 的 一 个 或 多 个 值 加 入 mask 以 便 控制 该 监视 
项 目的 行为 ; 


IN_DONT_FOLLOW 
如 来 设 定 了 此 值 ， 向 且 如 示 path 的 目标 或 者 Path 中 有 任何 元 素 契 一 个 件 己 链 
傍 ， 则 链接 不 会 倍 中 随和 而 且 inotify_add_watch(} 会 失败 。 

IN_MASK_ADD 
通常 ， 如 果 你 对 一 个 文件 调用 ijnotify_adgd_watch(})， 则 你 在 该 文件 上 就 会 
存在 一 个 监视 项 目 ， 此 视 掩 码 会 被 更 新 以 反映 刚才 所 提供 的 mask。 如 果 在 mask 
中 设 定 了 此 标志 ， 则 所 提供 的 事件 会 被 加 入 现 有 的 掩 码 中 。 

IN_ONESHOT 
如 果 设 定 了 此 值 , 则 当 特 定 的 对 象 产 生 第 一 个 事件 之 后 , 内核 会 自动 移 除 此 监视 项 
月 。 此 监视 项 目 实 际 上 “只 做 一 次 ”(one shot) 。 

IN_ONLYDIR 
如 果 设 定 了 此 值 ， 则 只 有 在 提供 的 对 象 是 一 个 目录 时 ， 才 会 加 和 监视 项 目 。 如 果 
Path 代表 一 个 文件 而 不 是 一 个 目录 ， 则 inotify_aaa watcht) 会 执行 失败 。 

举例 来 说 ,下面 这 段 范 例 程序 代码 ， 只 有 在 init.d 是 一 个 目录 而 且 /erc 和 VertecVinit.d 都 

不 是 符号 链接 时 才 会 在 /erc/init.d 上 加 入 监视 项 目 : 


请 
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int wa; 


* 只有 在 /etc/init.d 是 一 个 目录 ， 而 且 它 的 路 径 中 没有 一 个 部 分 是 符号 链接 时 
* 才 会 监视 /etc/init.a 是 否 移动 过 。 
sy 
wd = inotify _ add watch (td, 
"retc/init.d", 
IN_MOVE_SELF | 
IN_CNLYDIR | 
IN_DONT_EFECLLOW) ; 
if lwd == -1) 
perror {"inotify_add_ watchn"}); 


移 除 一 个 inotify 监视 项 目 
如 此 处 的 例子 所 示 ， 你 可 以 使 用 系统 调用 ijnotify_rm_watch() 从 一 个 inotify 实 
例 中 移 除 一 个 监视 项 目 ， 

#include <inotify.h> 

int inotify rm watch (int fd, uint32 t wd): 
执行 成 功 时 ，inotify_rm_watch() 会 从 inotify 实例 (以 文件 描述 符 表示 ) fa 移 
除 以 监视 描述 符 wa 表示 的 监视 项 目 并 返回 0。 


例如 : 
Tt ret+ 


ret = inotify_rm watch (fd, wa):; 
ft tret) 
perror ("inotify_ rm watch"): 


执行 失败 时 ， 此 系统 调用 会 返回 -1 并 且 会 将 errno 设 定 为 下 面 的 其 中 一 个 值 : 


EBADF 

fa 不 是 一 个 有 效 的 inotify 实例 。 
EIMNMVAL 

在 所 指定 的 inotify 实例 上 wd 不 是 一 个 有 效 的 监视 描述 符 ，。 
移 除 一 个 监视 项 目 时 ， 内 核 会 产生 IN_IGNORED 事件 。 内 核 不 仅 会 在 手动 移 除 期 间 送 
出 此 事件 , 而 且 会 因为 另 一 种 操作 的 副作用 而 销毁 监视 项 目 。 举 例 来 说 ， 当 所 监视 的 一 
个 文件 被 删除 时 ,此 文件 上 的 任何 监视 项 目 均 会 被 移 除 。 以 上 两 种 情况 下 ， 内 核 都 会 送 
出 IN_IGNORED。 此 行为 让 应 用 程序 可 以 固定 在 一 处 进行 移 除 监视 项 目的 处 理 : 
IN_IGNORED 的 事件 处 理 程序 。 这 对 inotify 的 高 端 消 费 者 (需要 管理 每 个 inotify 监 
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视 项 目 背 后 复杂 的 数据 结构 ， 例 如 GNOME 的 Beagle 搜索 基础 架构 ) 而 言 非常 有 用 。 


取得 事件 队列 的 大 小 
未 决 事件 队列 (pending event queue) 的 大 小 可 由 inotify 实例 的 文件 描述 符 上 由 
FIONREAD ioctl 请 求 来 取得 。 此 请 求 的 第 一 个 参数 用 于 接收 队列 的 大 小 〈 以 字 节 为 单 
位 )， 这 是 一 个 无 符号 整数 。 

inteder: 


unsigned jnt gueue_len; 
int ret: 


ret = ioctl (fd, FIONREAD, &dqusue len); 
if (ret < 0} 
perror ("iectl1"); 

济 printf ("%u bytes pending in queue\n", dgueue_len); 
请 注意 , 此 请 求 所 返回 的 是 队列 的 大 小 (以 字 节 为 单位 ), 而 不 是 队列 中 事件 的 数目 。 一 
个 程序 可 以 根据 inotify_event 结构 已 知 的 大 小 (由 sizeof {) 取得 )， 从 字 区 数 
目 估 算出 事件 数目 ， 并 且 猜 测 出 name 字段 的 平均 大 小 。 然 而 ， 比 较 有 用 的 是 字 市 数 
目 ， 因 为 这 可 让 进程 进行 大 小 适当 的 读 取 操作 。 


FIONREAD 常量 定义 于 头 文件 <sys/ioctl.h> 中 。 


销毁 一 个 inotify 实例 
销毁 一 个 inotify 实例 以 及 任何 相关 联 的 监视 项 目 就 如 关闭 该 实例 的 文件 描述 符 一 样 简 
单 


int ret: 


/* fd 经 inotify_init() 取得 */ 
ret = close (fda); 
If (fd == -1} 

Perror {"close"};} 


当然 ， 如 同 任何 的 文件 描述 符 一 样 , 内核 会 自动 关闭 文件 描述 符 , 并 且 在 进程 结束 时 请 
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对 一 个 进程 而 言 内 存 是 最 基本 而 且 是 最 重要 的 资源 。 本 章 将 说 明 此 资源 的 管理 : 内 存 的 
分 配 、 操 作 以 及 最 后 的 释放 ， 


动 问 aliocate”( 分 配 ) 一 一 常用 于 指称 取得 内 存 一 一 有 些 误 导 , 因为 它 会 让 人 有 “ 需 
求 超过 供应 而 对 不 足 的 资源 进行 限额 配给 ”的 印象 。 用 户 当 然 都 会 喜欢 内 存 越 多 越 好 。 
总 而 ,在 现代 的 系统 上 , 真正 的 问题 不 是 需要 的 太 多 但 分 配 到 的 太 少 , 而 是 如 何 适当 地 
使 用 与 记录 所 分 配 到 内 存 。 

本 章 中 , 你 将 学 到 在 程序 的 各 个 区 域 分 配 内 存 的 所 有 方法 , 包括 每 种 方法 的 优 缺 点 ,我 
们 还 会 看 到 如 何 设 定 和 操作 任何 内 存 区 域 ， 以 及 如 何 锁 定 内 存 以 让 数据 逗留 在 RAM 
中 ,使 得 程序 的 运行 不 必 等 待 内 核 将 数据 所 属 的 页 面 从 交换 空间 (swap space) 换 人 
RAM, 


\ Ja 
进程 地 址 空间 

Linux， 如 同 任何 现 代 的 操作 系统 ， 会 虚拟 化 它 的 物理 内 存 .， 进程 不 会 直接 寻 址 物理 内 
存 。 事实 上 ， 内 核 会 将 每 个 进程 关联 到 唯一 的 虚拟 地 址 空间 。 此 地 址 空间 是 线性 的 ,所 
使 用 的 地 址 从 零 起 算 ， 而 且 递 增 至 某 个 上 限 值 。 


页 面 与 页 面 调度 


虚拟 地 址 空间 由 页 面 (page) 组 成 。 一 个 页 面 的 大 小 是 固定 的 , 实际 的 大 小 取决 于 系统 
架构 以 及 机 器 类 型 ， 典 型 的 大 小 包括 4 KB (32-bit 系统 ) 以 及 8 KB (64-bit 系统 ) 
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( 注 1)。 页 面 不 是 有 效 的 , 就 是 无 效 的 。 一 个 有 效 页 面 (valid page) 会 被 关联 到 物理 内 
存 (physical memory) 中 的 一 个 页 面 或 基 个 辅助 存储 恬 (secondary stiorage)， 例如 一 
个 交换 分 区 (swap partition ) 或 是 磁盘 上 的 一 个 文件 。 一 个 无 效 页 面 (invalid page) 不 
会 被 关联 到 任何 地 方 ， 而 是 会 被 表示 成 一 段 未 使 用 . 未 分 配 的 地 址 空间 。 访 问 这 样 的 页 
面 会 导致 分 段 违 例 (segmentation violation) 。 地 址 空间 未 必 是 连续 的 。 尽 管 是 线性 寻 
址 ， 然 而 其 中 可 能 包含 许多 不 可 录 址 的 空 辽 。 


一 个 程序 无 法 使 用 存在 于 辅助 存储 器 (而 非 物理 内 存 ) 中 的 一 个 页 面 , 直到 它 锌 关联 到 
物理 内 存 中 的 一 个 页 面 。 当 一 个 进程 试图 访问 此 类 页 面 上 的 一 个 地 址 时 , 内 存 管 理 单元 
(memory management unit， 常 简写 为 MMU) 会 产生 一 个 页 面 失误 (page fault) 寞 第 
事件 。 然后 内 核 会 介入 , 透明 地 【自动 地 ) 从 辅助 存储 费 将 所 需要 的 页 面 换 入 物理 内 存 。 
因为 虚拟 内 存 可 以 比 物理 内 存 大 很 多 (许多 系统 上 甚至 只 有 虚拟 地 址 莫 ! ) ,内 核 也 会 经 
常 从 物理 内 存 “ 换 出 页 面 ”(paging out) 至 辅助 储存 器 ， 以 便 让 出 空间 给 换 和 的 页 面 。 内 
棱 会 试图 换 出 不 久 的 将 来 最 不 可 能 被 用 到 页 面 ， 因 此 可 以 优化 性 能 。 


共享 以 及 写 入 时 才 复 制 

虚拟 内 存 中 的 许多 页 面 即 使 位 于 不 同 进程 所 拥有 的 不 同 虚拟 地 址 空间 , 可 能 也 会 映射 至 
单一 的 物理 页 面 。 这 让 不 同 的 虚拟 地 址 空间 得 以 共享 物理 内 存 中 的 数据 。 这 个 共享 的 数 
据 可 能 仅 供 读 取 ， 或 者 可 供 读 取 和 写 人 。 


当 一 个 进程 写 入 一 个 被 共享 的 可 供 写 入 的 页 面 时 , 可 能 会 发 生 两 种 情况 。 其 中 最 简单 的 
一 种 情况 : 内 核 允 许 进 行 写 人 操作 , 在 此 情况 下 ， 共 序 该 页 面 移 所 有 进程 都 司 以 看 到 写 
和 人 操作 的 结果 。 人 允许 多 个 进程 读 取 或 写 人 一 个 被 共享 的 页 面 , 通常 需要 经 过 一 定 程度 的 
协调 以 及 同步 化 。 


然而 ，MMU 可 能 会 拦截 此 写 人 人 操作， 并且 产生 一 个 异常 事件 ;， 内核 的 响应 是 目 动 蔡 进 
行 写 人 操作 的 进程 创建 一 个 新 的 副本 , 这 让 写 信 操作 得 以 对 新 的 页 面 副本 继续 进行 。 我 
们 称 此 做 法 为 写 人 时 才 复 制 (copy-on-write ， 和 人 阐 写 为 COW) ( 注 2)。 和 事实 上 ， 克 许 
多 个 进程 对 被 共享 的 数据 进行 读 取 操作 可 记 省 内 存 空间 , 当 一 个 进程 想 写 入 一 个 被 共享 的 
页 面 时 , 它 马 上 会 收 到 该 页 面 独一无二 的 副本 , 这 让 内 核 的 行动 好 像 是 进程 具有 它 自己 私 
有 的 副本 。 因 为 COW 是 逐 页 进行 的 , 所 以 采用 此 做 法 , 一 个 大 型 文件 将 可 以 有 效 地 为 许 
多 进程 所 共享 ， 而 且 个 别 的 进程 只 会 在 它们 写 人 那些 页 面 时 取得 独一无二 的 物理 页 面 。 


注 | : 有 些 系 镍 会 支持 一 段 区 域 的 页 面 大 小 ， 因 此， 页 面 大 小 不 是 ABI 的 一 部 分 。， 应 用 程序 必须 以 
设计 程序 的 方式 在 运行 时 取得 页 面 的 大 小 。 此 议题 已 在 第 四 章 说 明 过 了 ,本章 将 回顾 此 议题 ， 


注 2. 第 五 章 所 提 到 的 fork!{) 就 是 采用 COW 的 做 法 让 子 进程 得 以 复制 与 共享 父 进程 的 地 
扯 空 间 。 
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内 存 区 域 
内 村 会 把 页 面 安排 进 块 以 分 享 革 些 特性 ,例如 访问 权限 .这些 块 称 为 内 存 区 域 (regiom)、 
段 (segment) 或 映射 mapping)。 你 可 以 在 每 个 进程 中 找到 特定 类 型 的 内 存 区 域 : 


。 ”文本 段 (texi segment) 包含 了 一 个 进程 的 程序 代码 、 字符 直接 量 (string literals)、 
党 变量 (constant variable) 以 及 其 他 仅 供 读 取 的 数据 。Linux 中 ， 此 段 会 被 标记 
为 仅 供 读 取 (read-only ) 而 且 直 接 映 射 自 目 标 码 文件 (此 程序 可 以 是 一 个 可 执行 艾 
件 ， 或 是 一 个 链接 库 )。 

。 ”堆栈 (stack) 包含 了 进程 的 执行 堆栈 (execution stack) ， 此 堆栈 会 因为 堆栈 深度 的 
增加 和 减少 而 动态 变 大 和 变 小 。 执 行 堆栈 中 包含 局 部 变量 以 及 函数 所 返回 的 数据 。 

。 ”数据 段 (daia segment) 或 堆 (heap)， 包含 了 一 个 进程 的 动态 内 存 。 这 古 一 个 可 
供 写 人 的 段 ， 所 以 此 段 的 尺寸 会 变 大 或 变 小 。 这 也 是 malloc () (下 一 市 会 讨论 ) 
所 返回 的 内 存 。 

。 bss 段 ( 注 3) 中 包含 了 未 初始 化 的 全 局 变量 。 根 据 C 标准 的 规定 ， 这 些 变量 中 
包含 了 特殊 值 (基本 上 全 为 零 )。 

。 “Linux 会 通过 两 种 方法 来 优化 这 些 变量 。 首 先 ， 因 为 bss 段 只 用 于 未 初始 化 的 数 
所 ， 所 以 链接 程序 (1d) 实际 上 不 会 在 目标 文件 (object file) 中 存储 这 些 特殊 值 。 
这 样 可 以 缩减 二 进 制 文件 的 大 小 。 甚 次, 当 此 段 被 加 载 至 内 存 时 , 内 核 会 以 写 人 时 
才 复 制 的 做 法 将 此 段 映 射 至 一 个 填 满 零 的 页 面 ,有 效 地 将 这 些 变 量 设 定 为 它们 的 默 
认 值 。 

se 多 数 地 址 空间 包含 了 一 些 映射 文件 (mapped file)， 例 如 程序 可 以 执行 它 自己 、C 
与 其 他 经 链接 的 链接 库 以 及 数据 文件 。 文 件 /prociself/maps 或 程序 pmap 的 输出 
可 作为 进程 中 有 哪些 映射 文件 的 最 佳 范 例 。 

本 章 将 说 明 Linux 所 提供 的 用 于 取得 与 返回 内 存 、 创 建 与 销毁 新 的 映射 以 及 其 同一 切 

的 接口 。 


分 配 动态 和 内存 


内 存 还 会 以 自动 和 静态 变量 的 形式 出 现 ,但 是 任何 内 存 管理 系统 的 基础 十 动态 内 行 的 分 
配 、 使 用 以 及 最 后 的 返回 。 动 态 内 存 分 配 于 运行 时 (而 不 是 在 编译 时 )， 分 配 之 前 它 的 
大 小 可 能 是 未 知 的 。 需 要 用 到 动态 内 存 的 时 机 如 下 : 你 需要 数量 相当 大 的 内 存 , 或 者 这 


注 3: 这 个 名 字源 自 block started by symbol (以 符号 开头 的 区 块 )， 
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些 内 存 需 要 使 用 多 入 并 不 一 定 , 在 程序 运行 之 前 无 法 知道 。 例如 , 你 可 能 会 想 将 一 个 文 
件 的 内 容 或 读 取 自 键盘 的 输入 数据 存放 在 内 存 中 。 因 为 并 不 知道 文件 的 坟 小 , 而 且 用 户 
可 能 会 键入 任意 多 的 数据 , 因此 无 法 确定 缓冲 区 的 大 小 , 所 以 你 可 能 会 因为 所 读 取 到 的 
数据 越 来 越 多 而 动态 调 大 组 种 区 的 大 小 。 
C 变量 本 身 并 不 会 用 到 动态 内 存 。 例 如 ,C 语言 并 未 提供 任何 机 制 可 以 取得 一 个 存在 于 
动态 内 存 的 struct Pirate_ship。 事 实 上 ，C 语言 提供 了 一 个 机 制 可 以 分 配 足 以 
保存 一 个 pirate_ship 结构 的 动态 内 存 。 然 后 ， 程 序 设 计 者 可 由 一 个 指针 【此 例 中 
就 是 struct pirate_ship*) 与 它 效 互 。 
mallocl() 就 是 一 个 用 于 取得 动态 内 存 的 典型 C 接口 ; 

#include <Btdlib.h> 

void * malloc (size 七 size);} 
执行 成 功 时 ，malloc{) 会 分 配 size 个 字 节 的 内 存 ， 而 且 会 返回 一 个 指针 指向 刚才 
所 分 配 内 存 区 域 的 开头 位 置 。 此 区 域 区 域 的 内 容 并 未 定 儿 ， 不 要 预期 它 会 被 十 满 零 值 。 
执行 失败 时 ，malloc1() 会 返回 NULL 并 将 errno 设 定 为 ENOMEM。 
malloc({) 的 使 种 相当 简单 ， 下 面 的 范例 程序 可 用 于 分 配 固定 数量 的 内 存 : 

Char *p} 

i* 给 我 2 KBI *) 

p = malloc (2048); 


if (i!p) 
perror ("malloc"}); 


下 面 的 范例 程序 可 用 于 分 配 一 个 结构 : 
Struct treasure_map “map: 


让 
* 分 配 足 够 的 内 存 来 保存 一 个 treasure_map 结构 
* 并 且 以 map 指向 它 


id 
map = malloc (silzeof (struct treasure map}}); 
if (!map) 


Perror ("malloc"}): 


赋值 时 ，C 会 目 动 将 指向 void 的 指针 提升 为 指向 任何 业 型 。 因 此 ， 以 上 范例 程序 在 
赋值 时 并 不 需要 将 malloc() 的 返回 值 转型 成 左 值 (lvalue) 的 类 型 。 然 而 ，C++ 程 
序 语 言 并 不 会 对 voia 进行 自动 提升 的 操作 。 因 此 ，C++ 的 用 户 需 要 以 如 下 的 方式 对 
malloc{) 的 返回 值 进行 转型 ， 
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rhar *name,; 


Fa 7 Ee S12 小 宇 市 过 这 


name = {char *}) malloc (512});} 
if tt!name) 
perror ("malloc"); 


有 些 C 程序 设计 者 喜欢 对 会 返回 voia 指针 的 任何 函数 (包括 malloc () ) 的 结果 进 
行 转型 。 我 反对 这 种 做 法 ， 如 果 函 数 的 返回 值 曾 变 更 为 voiq 指针 以 外 的 东西 ， 这 么 
做 就 会 有 一 个 错误 隐藏 在 其 中 。 此 外 ,如 林 -个 函数 未 做 适当 的 让 明 ( 注 4), 此 类 转型 
还 会 有 一 个 缺陷 隐藏 在 其 中 。 前 者 不 会 危及 malloc () 的 使 用 ， 不 过 后 者 会 


因为 malloc() 可 能 会 返回 NULL， 所 以 开发 者 务必 检查 并 处 理 错误 的 情况 。 诈 多 往 
序 会 定义 并 使 用 一 个 malloc() 包 右 函数 《wrapper), 以 便 在 malloc() 返回 NULL 
时 输出 错误 信息 并 终止 程序 。 按 惯例 ， 开 发 者 会 调用 xmalloc ') 这 个 共同 的 包 圳 国 煞 : 
/+ 胡同 malloct) ,和 但 是 在 失败 时 会 终止 程序 */ 
void * xmalloc {size_t size) 
{ 
VOIQ *p:; 
p = malloc lsize); 
if TIP) 1 
perror ("xmalloc"): 
exit (EXTT_ FATLURE).:; 
下 


return pr 


分 配 数 组 
当 指定 的 size 本 身 是 动态 的 时 ， 动态 内 存 分 配 会 变 得 相当 复杂 。 数 组 的 动态 分 配 就 
是 这 种 情况 ,数组 中 每 个 元 素 的 大 小 是 固定 的 , 但 是 元 素 的 数目 则 是 动态 分 配 的 。 为 了 
简化 此 情况 ，C 提供 了 calloc() 国 数 : 

#include <gtdlib.h> 

VOild * calloc lsize t nr, Blizze t sizel)} 
执行 成 功 上 时，calloc({) 会 返回 一 个 指针 ， 指 向 适合 保存 数组 (包含 nr 个 元 素 ， 包 
个 元 素 都 有 size 个 字 市 ) A ee 如 下 前 后 两 次 调用 所 请 求 的 内 存 数量 是 


注 4 站: 未 声明 的 函数 默认 会 返回 一 个 int 值 。 整数 至 指针 的 转 撞 (integer-t0-pointer cast) 并 
不 会 自动 进行 ， 而 且 会 产生 一 个 警告 信息 。 手 动 进行 类 型 转换 可 抑制 敬告 信息 的 产生 。 
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一 样 的 (这 两 次 调用 都 不 会 返回 比 所 请 求 的 数量 还 多 的 内 存 ， 但 是 也 不 会 奴 回 更 少 的 
内 存 ): 

工 误区 “下头 Ty 

其 三 MlLloc (S50 * sizeof (int})}.: 

jf {tix) { 


Berror {"matlloc"i); 
TeEturn -1} 


Y = eal]loc (SO0, sizeof tint)})}.,; 
if (lyy 1 
perror tt"calloc"): 
return 一 ] ; 


然而 ,它们 的 行为 却 古 不 一 样 的 ,。 cal1loc() 会 将 四 回 的 内 存 块 中 的 条 有 字 市 全 部 填 人 
零 值 ， 而 malloc () 并 未 对 所 分 配 内 存 的 内 容 做 如 此 的 保证 。 因 此 ， 整 数 数组 y ( 共 
有 50 个 元 秦 ) 中 每 个 元 素 的 内 容 均 为 0， 而 x 中 每 个 元 素 的 内 容 均 未 定义 。 除 非 程 序 
准备 立即 设 定 这 50 个 值 ， 驯 则 程序 设计 者 应 该 使 用 calloc () 来 确保 数组 元 素 不 会 
被 号 入 任意 值 。 请 注意 ， 二 进 制 的 零 不 同村 译 点 数 的 委 | 


用 户 通 常会 龟 将 动态 内 存 乱 请 雪人 值 ， 芭 使 在 不 处 埋 数 组 的 上 时候。 本 章 稍 后 会 探讨 
memset (f)， 此 接骨 可 用 于 将 一 个 内 存 块 中 的 每 个 字 市 设 定 成 一 个 特定 值 。 然 而 ， 让 
calloc{) 息 宝 雪人 慎 会 比较 快 ， 因 为 内 核 可 以 提供 已 经 填 满 零 值 的 内 存 。 


执行 失败 时 ,如同 mallocft),callocl() 会 返回 NULL 并 将 errno 设 定 为 ENDOMEM 


为 什么 标准 组 织 不 把 mal loc () 定义 成 “分 配 并 填 满 零 值 ”的 函数 是 一 个 谜 。 然 而 ， 
下 发 者 轻易 哎 能 是 义 日 己 的 接口 : 
A 和 如同 malloc()，, 供 是 会 特 内 存 区 域 填 满 专 值 */ 


yold * maliceD A Sl1Ze) 
| 


return calleoc (1, size): 
1 
用 


因此 ， 我 们 可 以 将 这 个 malloc0() 与 前 面 的 xmalloc() 全 并; 
A 如同 mallocectl， 介 是 会 将 内 存 区 域 填 满 符 值 ， 而 月 会 在 失败 时 终止 程序 */ 


VOld * wxmallocd lisize 上 slize} 
{ 
Vold *p: 


DB = calloc 11l, Size): 
1f (lp} { 





下 中 将 
270 八重 
perror ("xmallocO"}; 
exit (EXIT_FAILURE}): 
} 
rekurn p; 
} 


调整 内 存 分 配 的 大 小 
C 语言 提供 了 一 个 接口 ， 用 于 调整 现 有 内 存 分 配 的 大 小 《 变 大 或 变 小 ): 

#include <astdlib.h> 

vOid * realloco (void *ptr, size 七 size); 
执行 成 功 时 ，realloc() 会 将 ptr 所 指向 的 内 存 区 域 的 大 小 调整 为 size 个 字 节 的 
新 大 小 。 它 会 返回 一 个 指针 ， 指 向 刚 调整 过 大 小 的 内 存 区 域 ， 这 个 指针 可 能 跟 ptr 
样 ， 也 可 能 不 一 样 一 一 扩大 一 个 内 存 区 域 时 ， 如 果 realloc({) 无 法 在 原 处 通过 扩张 
块 的 方式 扩大 现 有 的 内 存 块 ， 则 此 函数 会 分 配 一 个 新 的 内 存 区 域 (长 度 为 size 个 字 
入 )， 然 后 将 旧 区 域 的 内 容 复 制 到 新 区 域 并 释放 旧 的 区 域 。 不 管 是 哪 种 情况 ， 内 存 区 域 
的 内 容 被 保存 下 来 的 部 分 取决 于 旧 大 小 与 新 大 小 中 最 小 者 。 因 为 可 能 会 进行 复制 操作 ， 
所 以 使 用 realloc() 扩大 一 个 内 存 区 域 可 能 是 一 个 代价 相当 高 的 行动 。 
如 果 size 的 值 为 0， 则 结果 如 同 针对 ptr 调用 free()。 


如 果 ptr 的 值 为 NULL， 则 此 操作 的 结果 如 同 malloct)， 如 果 ptr 的 值 非 NULL， 
则 它 必 须 是 之 前 所 进行 的 malloc()}、calloc{() 或 realloc{) 调用 的 返回 值 。 


执行 失败 时 , realloc() 会 返回 NULL 并 将 errno 设 定 为 ENOMEM ,而且 ptr 所 指 
回 的 内 存 的 状态 不 会 改变 。 

让 我 们 来 看 一 个 缩小 内 存 区 上 域 的 例子 。 首 先 ， 我 们 会 使 用 calloc{) 分 配 足 够 的 内 存 
区 域 来 存放 具有 两 个 元 素 的 map 结构 数组 : 


struct map *p:; 


Ta 


* 炎 两 个 map 结构 分 配 内 存  */ 


P = calloc (2, sizeof {struct map)}: 
if trip) { 

perror "calloc"):; 

velLurn -1: 
} 


A* 合用 BIO 与 p[13 ee *y 
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现在 , 假设 我 们 已 经 找到 其 中 一 份 宝 蕊 ,不 再 需要 第 二 张 地 图 ， 所 以 我 们 决定 调整 内 存 
的 大 小 ， 以 便 将 区 域 的 一 半 还 回 系统 (一般 而 言 这 么 做 并 不 值得 ， 但 是 如 果 map 结构 
非常 大 ， 而 且 我 们 打算 长 时 间 保 存 地 图 ， 就 值得 这 么 做 ): 


Strurt map *Yr;} 


* 现在 我 们 只 需要 足以 保存 - 张 也 图 的 内 在 区 域 */ 
r = realloc (pp, Si2Zeof ‘struct map})}; 
if tiry 1 
/+ 省 意 ，P 仍然 有 效 ! */ 


POTrToOrT tt"realloc"): 


比例 中 ,realloc1!) 完成 赔 川 之 后 PE0] 会 被 保留 下 来 。 之 前 的 数据 仍然 存在 于 该 处 。 
如 果 调 用 失败 ， 则 Bp 维持 不 灾 a 我 们 可 以 继续 使 用 它 ， 而 且 最 后 洁 楼 
释放 它 。 反 过 来 说 ， 如 来 头 用 成 功 ， 我 们 可 以 忽略 p， 并 转 而 使 用 工 ( 可 能 跟 
样 ， te rtp gn )。 现 在 ， 当 我 们 完成 工作 之 后 ， 我 们 有 贡 
任 释放 r。 


释放 动态 内 存 

不 同 于 自动 分 配 (stack unwind {译注 1) 时 会 自动 解除 分 配 )， 动 态 分 配 的 内 存 是 进程 
地 址 空间 中 永久 保存 的 部 分 ， 除 非 它们 被 手动 释放 。 因 此 , 程序 设计 者 必须 承担 将 动态 
分 配 的 内 存 释 放 回 系统 的 责任 (当然 , 如果 整个 进程 结束 运行 , 则 静态 和 动态 分 配 的 内 
存 区 域 都 会 不 见 )。 


使 用 malloc().callocl) 或 realloc() 所 分 配 的 内 存在 不 再 使 用 时 必须 由 free 1) 
释放 回 系统 : 


#include <stdlib.,h» 


void freaee (void *ptr); 


free() 可 用 于 释放 PEr 所 指向 的 内 存 . 参 数 ptr 的 值 必须 是 先前 所 调用 的 mallcoc1)、 
calloct{) 或 realiloct{) 的 返回 值 。 也 就 是 说 ， 你 无 法 通过 将 指针 指向 所 分 配 的 块 


一 一 


译注 1: Sacto nema 是 指 从 被 调用 部 数 返 回 时 ， 由 堆栈 顶 站 弹出 相应 堆栈 帆 (肉禽 局 部 变 
量 ) 。 此 外 ， 自 动 内 存 分 配 通常 与 自动 变量 有 关 。 自 动 变量 就 是 程序 代码 块 里 的 局 部 变 
量 。 执行 流程 进入 程序 代码 块 时 就 会 在 堆栈 上 自动 分 配 这 些 局 部 变量 ,离开 程 序 代码 块 
就 会 自动 考 除 这 些 局 部 变量 的 分 配 、 所 以 自动 灾 量 通常 杯 为 局 部 变量 ， 
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的 某 个 部 分 的 位 置 ， 让 free 1) 释放 部 分 内 存 块 一 一 例如， 某 个 内 存 块 的 一 半 ，。 


ptr 的 倩 可 以 是 NULL ， 在 此 情况 下 free() 会 悄悄 返回 。 因 此 , 调用 free{) 之 前 
检查 ptr 是 否 为 NULL 值 的 常见 做 法 其 实 是 多 余 的 。 


让 我 们 来 看 下 面 这 个 例子 : 


voOid print_chars {int nn, char ce) 


| 
int 1: 
for {1 : 0; LL < n; it+) 1 
char *s; 
int j; 
页 
* 分 本章 日 将 : -个 有 i+2 个 元 素 的 字符 数组 填 请 堆 值 。 
* 注意 ，sizeof tchar) 的 结果 总 是 为 1。 
nd 
3 = Calloc {1 + ZzZ, 1); 
1E (tis) I 
PErTor reAalloc"): 
break:; 
} 
for {1] = D0; jj < i + 1]: JjJ++)} 
己 | | 一 忆 
print! ("s\n", Ss}; 
/* 伐 好 了 。 避 加 给 内 仔 。 */ 
freaee 【号 ) ， 
} 
| 


此 范例 所 分 配 的 个 字符 (chars) 数组 中 包含 了 递增 的 元 素数 日 ， 区 域 从 2 个 元 素 
(2 个 字 节 ) 到 n + 1 个 元 素 (n + | 个 字 池 )。 对 每 个 数组 而 言 , 循环 会 把 字符 c 写 入 它 
的 每 个 元 素 ， 最 后 一 个 元 素 除 外 〈 让 最 后 一 个 字 节 保持 零 值 )， 接 着 将 数组 当成 一 个 字 
符 串 输出 ， 然 后 释放 动态 分 配 的 内 存 。 


调用 print_chars() 时， 车 n 等 于 5 日 ec 设 定 为 Xx， 则 会 获得 如 下 的 结果 : 
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当然 , 实现 此 函数 还 有 更 有 效率 的 做 法 。 然 而, 关键 是 我 们 可 以 动态 分 配 以 及 释放 内 存 ， 
即使 在 运行 时 才 获 知 分 配 的 大 小 和 数目 。 


天 冯 
| Unix 系统 ,例如 SunOS 与 SCO , 为 free(}) 提供 了 一 个 变 体 ,名 为 cfree()， 
本 


ws 而。 依 系 统 面 定 , 共 行为 可 能 中 freei) - 样 ,或 者 接受 二 个 参数 ,仿照 calloec1)。 
+ 
Linux 中 ，free{) 可 以 处 理 取 自 【 记 今 我 们 所 提 过 的 ) 任何 分 配 机 制 的 内 存 。 
除非 项 及 向 下 兼容 ， 否 则 不 应 该 使 用 。Linux 版 本 的 cfree!) 跟 free() 
样 。 


如 果 此 范例 并 未 调用 free(), 注意 会 有 什么 结果 。 程序 不 会 把 内 存 释放 回 系 统 ， 和 而 是 
更 糟 的 是 ， 程 序 可 能 会 失去 它 对 内 存 有 的 瞧 一 引出 旧 针 ss， 这 让 它 再 也 无 法 访问 内 
存 。 我 们 将 此 类 程序 设计 错误 称 为 内 存 泄漏 (memory leak)。 内 存 和 泄漏 类 似 于 常见 的 动 
态 内 存 错误 ， 而 且 不 幸 地 ， 这 在 C 程序 设计 中 是 最 严重 的 错误 。 因 为 C 语言 将 管理 内 
存 的 所 有 责任 全 都 加 诸 在 程序 设计 者 身上 ， 所 以 C 程序 设计 者 必须 严 遵 看 待 所 有 内 人 存 
分 配 。 





另 一 个 C 程序 设计 常 犯 的 错误 就 是 “use-afrer-free”。 一 个 内 存 块 被 释放 后 ， 随 后 义 饭 
访问 便 会 发 生 此 错误 。 对 一 个 内 存 块 调用 free!) 之 后 , 程序 不 得 再 访问 它 的 内 容 。 程 
序 设 计 者 必须 特别 留意 虚 基 指针 “(dangling pointer)， 或 是 指 同 无 效 内 存 块 的 非 NULD 
指针 。 有 两 个 常用 的 工具 可 协助 你 进行 此 工作 : Elecitric Fence 与 valerind ( 注 5)。 


对 齐 

数据 的 对 齐 (alignmen!) 是 指 从 硬件 来 看 数据 的 地 址 与 内 存 块 之 同 的 关系 。 一 个 变量 所 
位 于 的 内 存 地 址 若是 其 大 小 的 倍数 ， 则 称 为 自然 对 齐 “(naturally aligned)。 举 例 来 说 ， 
如 果 一 个 大 小 为 32 位 (4 个 字 节 ) 的 变量 在 内 存 中 的 地 址 是 4 的 倍数 一 一 也 就 是 说 ， 
如 果 地 址 中 最 低 的 2 位 的 值 为 0， 则 称 为 自然 对 齐 。 因 此 , 一 个 数据 类 型 的 大 小 者 为 2" 
个 字 节 ， 则 它 的 地 址 中 最 低 的 #4 位 司 须 设 定 为 0。 


与 对 齐 有 关 的 规则 源 白 硬件 。 有 些 机 器 架构 在 数据 的 对 齐 上 有 非常 严格 的 要 求 。 在 有 些 
系统 上 ， 若 加 载 未 对 齐 的 数据 会 触发 陷阱 (trap) 异常 事件 。 而 在 其 他 系统 上 ， 则 可 以 
安全 地 访问 未 对 齐 的 数据 ,但 是 会 造成 性 能 降低 的 后 果 。 要 编写 具 可 移植 性 的 程序 代码 ， 
必须 避免 对 齐 问题 ， 而 且 所 有 数据 类 型 应 该 被 自然 对 齐 。 


汪 5: 分 别 套 见 hp:Aperens.com/FreeSsofrware/Electric Fence/ 以 及 hiips/ivalgrind.org, 


274 第 八 章 





分 配 已 对 齐 的 内 存 

多 数 情况 下 ， 编 译 器 和 C 链接 库 会 透明 地 (自动 地 ) 处 理 对 齐 的 问题 。POSIX 规定 由 
malloc()、calloc() 以 及 realloc{) 所 返回 的 内 存 必 须 适当 地 对 齐 所 使 用 的 任 
何 标准 C 类 型 。 就 Linux 而 言 ， 这 些 国 数 所 返回 的 内 存在 32 位 系统 上 ， 总 是 会 对 齐 8 
字 节 边界 ; 在 64 位 系统 上 ， 则 会 对 齐 16 字 蔬 边 务 。 


有 了 时, 程序 设计 者 需要 动态 内 存 对 齐 较 大 的 边界 ， 例如 一 个 页 面 。 尽 管 动机 不 同 ， 不 过 
最 常见 的 就 是 需要 适当 对 章 直 接 块 MO 或 其 他 的 软件 /硬件 通信 中 所 使 用 的 缓冲 区 。 因 
此 ，POSIX 1003.1d 提供 了 一 个 名 为 posix_memalign({) 的 图 数 ; 

/* 上 只 有 一 个 定义 会 符合 需要 */ 


#define XOPEN SOURCE 600 
#definie GNU SOURCE 


#include <stdlib.h> 


int posix memalign (void **memptr, 
size t alignment., 
gize t gize);} 


执行 成 功 上 时 ，posix_memalign({) 会 分 配 size 个 字 节 的 动态 内 存 ， 并 确保 它 的 地 


址 对 齐 alignment 的 倍数 ,参数 alignment 必须 是 2 的 帘 次 方 , 而 且 是 一 个 voiq 
指针 大 小 的 倍数 。 所 分 配 内 存 的 地 址 会 被 放 人 memptr， 而 且 此 调用 会 返回 0。 


执行 失败 时 不 会 分 配 内 存 , 也 不 会 定义 memptr, 而 且 此 调用 会 返回 下 面 的 其 中 一 个 错 
示人 代 哲 


EINVAL 

参数 al ignment 并 非 2 的 竹 次 方 或 者 并 非 是 一 个 void 指针 大 小 的 倍数 。 
ENOMEM 

内 存 的 可 用 空间 不 足以 完成 所 请 求 的 分 配 动作 。 
注意 ， 此 处 并 不 会 设 定 errno 一 一 靖 数 会 直接 返回 这 些 错 误 代 码 。 


经 posix_memalign(} 取得 的 内 存 可 通过 free() 释放 ,posix_memalign{) 的 
用 法 很 简单 ， 


char *buf:; 
int rek: 


jx 分配 1 KB 对 齐 256 byte 边界 */ 
ret = posix memalign lI&buf, 256, 1024}):; 
if {ret) { 
fprintt (stderr, "posix memalign: $Ss\n”", 
SECrerror liretr}: 
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TT 主 上 rn 1: 


/* 使 用 buf……… */ 


free (buf): 


较 旧 的 接口 
POSIX 定义 posix_memalign() 之 前 ，BSD 与 SunOSs 分 别提 供 了 如 下 的 接口 ; 


#include <malloc.hs 


void * valloc {size t gize): 
void * memalign (size t boundary, size t size); 


除了 所 分 配 的 内 存 会 对 齐 一 个 页 面 的 边界 , 国 数 valloc() 的 其 他 操作 如 同 malloc1()。 
第 四 章 所 提 到 的 系统 的 页 面 大 小 可 由 getpagesize() 轻易 取得 。 


函数 memalign() 也 一 样 ， 不 过 它 会 将 所 分 配 的 内 存 对 齐 Poundary 个 字 节 (必须 
是 2 的 震 次 方 ) 的 边界 。 下 面 的 例子 中 ,这 两 种 分 配方 式 都 会 返回 足以 存放 一 个 ship 
结构 的 内 存 块 《对齐 一 个 页 面 的 边界 ): 


struct ship *plrate, *hms:; 


pirate = valloc (sizeof (struct ship})}; 
if (!pirate) { 
. Perrer ("valloc"); 
return -1; 


hms = memalign (getpagesize (}, sizeof (gtruct ship)); 
lf (lhms) { 

perror ("memalign"):; 

free (plirate); 

Teturn -1: 


+* 使 用 pirate 与 hms 上 


free {hms}; 
free (pirate}): 


在 Linux 上 ， 经 这 两 个 函数 所 取得 的 内 存 可 通过 free() 释放 。 在 其 他 的 Unix 系统 上 
情况 可 能 不 同 ， 有 些 系统 并 未 提供 任何 机 制 用 于 安全 地 释放 这 两 个 函数 所 分 配 的 内 存 。 
考虑 可 移植 性 的 程序 没有 别 的 夺 择 ， 只 能 不 释放 由 这 两 个 接口 所 分 配 的 内 存 ! 


Linux 程序 设计 者 只 应 该 在 有 移植 到 较 旧 系统 的 需要 时 才 使 用 这 两 个 函数 , 应 该 优先 使 
用 posix_memalignf)。 除 非 所 要 求 的 对 齐 边界 大 于 malloc() 所 能 提供 的 ， 否 则 
并 不 需要 使 用 这 三 种 接口 。 
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其 他 的 对 齐 议 题 


此 处 所 要 探讨 的 对 齐 议 题 已 经 超出 了 慰 准 数据 类 型 以 及 动态 内 存 分 配 的 日 然 对 齐 。 例 如 ， 
相 较 于 标准 的 数据 类 型 ， 非 标准 以 及 复杂 的 数据 类 型 只有 更 复杂 的 需求 。 再 者 ， 当 要 对 
不 同类 型 的 指针 赋值 以 及 进行 类 型 转换 时 ， 此 类 对 齐 议 题 变 得 加 倍 重 竖 。 


非 标准 的 数据 类 型 
弟 标 准 与 复杂 的 数据 类 型 的 对 章 需 求 超出 了 自然 对 齐 的 简单 要 求 。 下 面 是 四 个 有 用 的 规 
I， 


. -不 结构 的 对 齐 需 求 束 是 该 结构 的 组 成 类 型 (constituent type) 中 最 大 者 。 et 
品 ， 如 林 一 个 结构 成 员 中 最 大 的 数据 类 型 是 一 个 32 位 的 整数 , 因此 需要 对 齐 4 字 
厂 的 边 内 ， 则 此 结构 必须 至 少 对 齐 4 字 节 的 边界 。 


* 结构 还 会 有 进行 填充 的 需要 ， 用 二 确保 每 个 组 成 类 型 被 适当 对 齐 读 和 
求 ， 因此 ， 如 有 未 发 现 一 个 char (需要 对 齐 1 个 字 节 后 面 跟 着 -个 int (需要 
对 齐 4 个 字 了 ee 随 傈 in E 位 于 4 
字 节 的 边界 上 。 程序 设计 者 有 让 整 结构 中 成 员 的 次 序 一 一 例如 按照 尺 
至 小 - -以 降低 填充 所 浪费 的 GCC 选项 -wpadded 会 肥力 协助 此 事 ， 

当 编 译 器 插 人 隐 式 的 境 充 时 ， 它 会 产生 一 个 整 告 信息 。 


*。 ”一 个 联合 类 型 (union) 的 对 齐 需 求 就 是 成 员 类 型 中 最 大 者 。 


。 一 个 数组 的 对 齐 需 求 就 是 基本 类 型 (base type) 。 因此， 数组 的 对 齐 需求 不 会 越 出 
其 类 型 的 单一 实例 。 此 行为 是 数组 中 所 有 成 员 自然 对 齐 的 结果 。 
操 弄 指针 


因为 编译 器 会 透明 地 处 理 多 数 的 对 齐 需 求 ， 它 会 花 一 点 工夫 揭露 可 能 的 问题 。 然 而 ， 它 
并 未 著 虑 到 处 理 指 针 与 转型 时 所 遇 到 的 对 齐 议题 。 

通过 折 针 转型 , 将 对 章 较 小 块 的 数据 转换 成 对 齐 较 大 块 的 数据 来 访问 数据 时 ,会 导致 处 
理 器 加 载 的 数据 并 未 适当 对 齐 较 大 类 型 的 结果 。 举 例 来 说 , 下面 的 程序 代码 片段 会 将 = 
赋值 给 padnews ， 试 图 将 c 读 取 成 unsigneqd long; 


char aqreelL Ing[| = " how MaE OW" 
char *C = groet ing[1i]): 
unsigned long badncews = *{unsigned Jong *}) ee 


一 个 unsignea long 可 能 会 对 齐 4 或 8 字 节 的 边界 ,而 在 相同 的 边界 上 c 几乎 只 会 
和 个 字 节 。 央 此 ， ns C 的 加 载 会 导致 对 齐 违例 (alignment violation )。 

根据 染 构 ， 这样 所 导致 的 结果 可 能 小 到 性 能 下 降 ， eal 某 些 机 媳 架 构 
可 以 检测 出 对 齐 违 例 ， 但 无 法 适 当地 也 以 处 理 ， 内 核 会 送出 SIGBUS 信号 给 违例 的 进 
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程 ， 以 便 终 止 该 进程。 我 们 将 在 第 九 章 探讨 信号 的 议题 。 


这 类 例子 可 能 比 你 所 想象 的 还 常见 。 真实 世界 中 将 不 会 出 现 如 此 胡 涂 的 情况 , 但 也 可 能 
只 是 不 那么 明显 署 了 。 


管理 数据 段 

Unix 系统 以 往 就 提供 了 可 用 于 直接 管理 数据 段 的 楼 号 。 然 而 ， 多 数 程序 并 未 下 接 使 用 
这 些 接口 ， 岗 为 malloc1) 以 及 其 他 分 配 机 制 更 容易 使 用 而 且 功 能 强大 。 我 将 在 此 处 
说 明 这 些 接口 ， 以 满足 好 奇 的 读者 及 想 自 己 实现 基于 堆 的 分 配 机 制 的 少数 读者 ， 


#include <unigtd.hy> 


int brk (void *end); 

void * gbrk (intptr t increment});} 
这 些 国 数 的 名 称 源 自 老 旧 的 Unix 系统 ,其 中 堆 (heap) 与 堆栈 (stack) 位 于 相同 的 段 。 
堆 中 的 动态 内 存 分 配 从 段 的 底部 向 上 增长 ; 而 堆栈 则 会 从 段 顶 部 向 下 朝 堆 方向 增长 。 堆 
与 堆栈 之 间 的 分 界线 称 为 打 断 (break) 或 断 点 《break poin1)。 现代 计 算 机 上 ， 数 据 段 
位 于 它 自己 的 内 存 上 映射 中 ， 我 们 会 继续 将 映射 的 结尾 地 址 标示 为 断 扣 。 


brk(} 可 用 于 将 断 点 (数据 段 的 结尾 ) 设 定 为 ena 所 指定 的 地 址 。 执 行 成 功 时 ， 筷 会 
返回 0; 执行 失败 时 ， 它 会 返回 -1 并 将 errno 设 定 为 ENOMEM。 


sbrk() 会 根据 increment 的 值 (可 能 是 正 或 负 的 增 量 ) 来 增加 数据 段 的 结尾 地 址 。 
sbrk1() 会 返回 修改 过 的 断 点 。 因 此 ， 若 increment 的 值 为 0， 则 会 输出 当前 的 断 
点 ， 


printf {f"The current break point 了 号 Sp", sbrk 10)):; 


事实 上 ，POSIX 与 C 标准 都 未 定义 这 黄种 函数 。 然 而 ， 几 乎 所 有 Unix 系统 都 支 持 这 
两 种 函数 。 具 可 移植 性 的 程序 应 该 使 用 基于 标准 的 接口 。 


匿名 内存 映射 


slipe 中 的 内 存 分 配 使 用 的 是 数据 段 (data segment) 以 及 内 存 映 射 (memory mapping ) 。 
实现 malloc{) 的 典型 做 法 就 是 将 数据 段 分 割 成 一 系列 “2 的 器” 的 分 区 ， 而 且 可 以 
通过 返回 最 接近 所 要 求 大 小 的 分 区 来 请 足 内 存 分 配 需 求 。 要 释放 由 存 ， 只 需要 将 相应 的 
分 区 标记 为 “可 用 ”(free) 就 行 了 。 如 果 比 邻 的 分 区 也 被 标记 为 可 用 , 则 它们 会 被 合并 
成 一 个 较 大 的 分 区 。 如 果 堆 的 顶部 是 整体 可 用 的 ， 则 系统 会 使 用 brk() 调 低 断 点 ， 缩 
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小 堆 并 将 内 存 返 回 内 核 。 


此 算法 称 为 伙伴 内 存 分 配方 案 (buddy memory allocation scheme)。 此 机 制 的 优点 是 速 
度 快 并 且 容 易 实 现 ， 但 缺点 是 会 导致 两 种 碎片 (fragmentation)。 如 果 使 用 比 所 请 求 大 
小 还 多 的 内 存 来 满足 一 个 分 配 需求 ， 就 会 发 生 内 部 碎片 (internal fragmentation) 的 情 
况 。 这 会 导致 可 用 的 内 存 变 成 无 法 使 用 的 。 如 果 可 用 的 内 存 可 以 满足 所 请 求 的 大 小 ,但 
是 却 被 分 隔 成 两 个 或 多 个 非 比邻 的 块 ， 就 会 发 生 外 部 碎片 (external fragmentation) 的 
情况 。 这 会 导致 内 存 无 法 使 用 (因为 也 许 使 用 了 一 个 较 大 、 较 不 适当 的 块 ) 或 内 存 分 配 
失败 《如果 不 存在 可 供 选 择 的 块 )。 


再 者 ， 此 机 制 会 让 一 个 内 存 分 配 “ 钉 住 ”(pin) 另 一 个 ， 以 避免 glibc 将 内 存 释 放 回 内 
核 。 假 设 有 两 个 内 存 块 一 一 块 A 和 块 B 一 一 被 分 配 。 块 4 就 在 断 点 上 , 而 块 8 位 于 块 
4 之 下 。 即 使 程序 释放 块 B，glibc 仍旧 无 法 调整 断 点 ， 除 非 块 4 也 被 释放 。 这 样 ， 一 
个 长 期 运行 的 应 用 程序 就 会 “ 钉 住 ”内 存 中 所 有 其 他 的 分 配 。 


这 往往 不 是 重点 所 在 ， 因 为 glibc 并 不 会 按 惯例 将 内 存 释 放 回 系 统 ( 注 6)。 通 常 ,， 堆 并 
不 会 在 每 次 内 存 被 释放 后 就 被 缩减 。 事 实 上 ，glibc 会 保留 被 释放 的 内 存 以 供 后续 的 分 
配 需 求 使 用 。 只 有 在 堆 的 尺寸 显著 大 于 内 存 分 配 所 需 的 数量 时 , glibc 才 会 缩减 数据 段 。 
然而 ， 大 型 的 内 存 分 配 不 会 出 现 缩减 的 现象 。 


因此 ， 对 于 大 型 的 内 存 分 配 ，glibc 并 不 会 使 用 堆 。 事 实 上 ，glibc 会 创建 一 个 匿名 内 存 
映射 (anonymous memory mapping) 以 请 足 内 存 的 分 配 请 求 。 匿 名 内 存 分 配 类 似 于 第 
四 章 所 探讨 的 基于 文件 的 映射 , 不 过 其 背后 并 未 有 任何 文件 的 支持 一 一 因而 有 “匿名 ” 
之 称 。 事 实 上 ,匿名 内 存 映射 只 是 一 个 可 供 你 使 用 的 大 型 、 填 满 零 值 的 内 存 块 。 你 可 以 
把 它 想 成 一 个 全 新 的 堆 ,， 不 过 仅 用 于 单一 内 存 分 配 。 因 为 此 类 映射 位 于 堆 之 外 ， 所 以 它 
们 并 不 会 造成 数据 段 的 碎片 问题 。 


通过 匿名 映射 分 配 内 存 有 以 下 好 处 : 

*。 与 雁 记 无关。 当 程 序 不 册 需 要 一 个 殴 名 内 存 上 映射 时 , 映射 会 被 解除 , 而 且 内 存 会 被 
立即 释放 回 系 统 ， 

。 ”匿名 内 存 映射 的 大 小 是 可 调整 的 ， 有 具有 可 调整 的 访问 权限 ,而且 可 以 像 一 般 映 射 
(参见 第 四 章 ) 那样 收 到 警告 信息 。 

。 每 小 内 存 分 配 存在 于 独立 的 内 存 映 射 中 。 不 需要 管理 全 局 性 的 堆 。 


注 和: glibc 会 使 用 比 这 个 简单 的 伙伴 分 配方 案 还 要 南 级 的 内 存 分 配 算 法 ， 称 为 arena 


atgorithm., 
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与 玲 相 比 ， 匿 名 内 存 映 射 有 两 项 缺点 : 


。 ”每 个 内 存 映 射 的 大 小 是 系统 页 面 尺寸 的 整数 倍 。 因 此 , 如 果 一 个 内 存 分 配 的 大 小 不 
是 页 面 尺 寸 的 整数 倍 ， 则 会 造成 slack space (译注 2) 的 浪费 。slack space 与 小 
型 的 内 存 分 配 更 有 关 ， 相 较 于 内 存 分 配 的 大 小 ， 这 会 浪费 比较 多 的 空间 。 

。 ” 相 较 于 从 堆 将 内 存 释放 回 系统 (并 未 涉及 任何 内 核 的 交互 )， 创建 一 个 新 的 内 存 映 
射 会 导致 更 多 的 开销 。 内 存 分 配 的 规模 越 小 ， 此 现象 越 显著 。 

为 了 让 优点 有 发 挥 的 空间 ， 同 时 避 开 缺点 ，8glibpc 的 mal1loc () 会 使 用 数据 段 来 满足 

小 型 的 分 配 需求 , 以 及 使 用 匿名 内 存 映 射 来 满足 大 型 的 分 配 需求 。 分 配 需求 是 大 型 或 小 

型 取决 于 一 个 可 设 定 的 国 值 (参见 “高 级 内 存 分 配 ” 一 节 )， 而且 不 同 的 glibe 了 本 可 

能 会 有 所 差异 。 当 前 的 冰 值 为 128 KB : 内 存 分 配 小 于 或 等 于 128 KB 者 来 自 堆 ， 而 大 

于 128 KB 的 肉 存 分 配 则 来 自 匿名 内 存 映 射 。 


创建 匿名 内 存 映 射 

或 许 是 因为 你 想 为 特定 的 分 配 需求 使 用 内 存 映 射 (而 非 堆 1)， 或 许 是 因为 你 要 编写 自己 
的 内 存 分 本 系统 ,你 可 能 会 想 手动 创建 你 自己 的 匿名 内 存 映 射 一 一 无 论 是 哪 种 情况 , 对 
Linux 而 言 都 很 容易 。 第 四 章 所 提 到 的 系统 调用 mmap() 与 munmap () 可 分 别 用 于 创 
建 与 销毁 一 个 内 存 映射 : 


#include <BYBAmman .二 > 


OId * mmap void *astart, 
saize t length, 
int prot, 
int flagas, 
int fd, 
ff 七 GEfsaet}:y 


int mnmap (void *etart, gize 七 length);} 


事实 上 , 创建 一 个 匿名 内 存 映 射 比 创建 一 个 基于 文件 的 映射 还 要 容易 , 因为 没有 文件 需 
要 开启 以 及 管理 。 这 两 种 映射 的 主要 差别 在 于 , 会 有 一 个 特别 的 标志 用 于 表示 映射 为 医 
名 的 。 


让 我 们 来 看 一 个 例子 : 


译注 2: slack space 是 指 内 部 碎片 所 浪 曲 的 存储 空间 。 
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volid *ps? 


p = mmap (NULL, i 此 处 无 英 紧 要 */ 
号 之 * 1024, A* S12 KB *J 
PROT_READ | PROT_WRITE, :#9 惧 读 取 与 写 和 A */ 
MAP_ANONYMOUS | MAP_PRIVATE，/* 除名 与 私有 */ 
-1 ， = ff (和 色 晓 ) */ 
0); /xx offset ( 忽 临 ) */ 


if (D == MAP_FAL1LED) 
perror i"mmap"): 
合 ] 号 所 


1* p 指向 512 KB 的 匿名 内 存 ……*/ 


一 般 而 言 ， 使 用 mmap () 创建 匿名 映射 时 ， 所 传递 的 参数 值 会 像 这 个 例子 所 呈现 的 那 
样 。 当 然 ,， length 的 参数 值 (以 人 字 布 为 单位 ) 取决 十 程序 设计 者 的 需要 。 其 他 鸭 参 数 
值 一 般 会 做 如 下 的 设 定 : 


第 一 个 参数 start 会 被 设 定 成 NULL， 这 意味 着 匿名 映射 的 起 始 地 址 让 内 核 目 行 
安排 。 此 处 也 可 以 指定 非 NULL 值 ， 只 要 它 能 够 对 齐 页 面 ， 但 是 这 会 对 可 移植 性 
造成 限制 。 鲜 有 程序 会 在 平 映 射 存 在 于 内 存 中 的 何 处 ! 

为 了 让 映射 可 供 读 取 和 写 入 ,prot 参数 通常 会 设 定 PROT_READ 与 PROT_WRITE 
这 两 个 位 。 一 个 空 的 觅 射 是 没有 任何 用 处 的 (如 果 无 法 对 它 进行 读 取 和 写 入 的 操 
作 )。 另 一 方面 ,很 少 会 有 从 一 个 匿名 映射 执行 程序 代码 的 需要 ,而 且 允 许 这 么 做 
会 导致 一 个 法 在 的 安全 漏洞 。 

flags 参数 会 设 定 MAP_ANONYMOUS 位 (此 映射 为 匿名 的 ) 以 及 MAP_PRIVATE 
位 【此 映射 为 私有 的 )。 

当 MAP_ANONYMOUS 被 设 定 时， 参数 fa 与 offset 会 被 忽略 。 然 而， 有些 较 旧 
的 系统 会 希望 f3 的 值 为 -1， 如 果 芳 虑 到 可 移植 性 ， 应 该 将 -1 传人 fa 参数 。 


通过 匿名 映射 所 取得 的 内 存 看 起 来 会 像 是 经 堆 所 取得 的 内 存 。 从 匿名 映射 分 配 内 存 的 好 
处 是 页 面 已 经 填 满 等 值 , 完成 此 事 不 需要 任何 代价 , 因为 内 核 会 通过 写 入 时 复制 (copy- 
on-write) 将 应 用 程序 的 芒 名 页 和 面 映射 至 填 满 零 值 的 页 面 。 因 此 ， 不 需要 对 所 运 回 的 内 
存 使 用 memset 1 )。 的 确 ， 相 较 于 使 用 malloc() 之 后 再 使 用 memset {)， 直 接 使 
用 calloc() 会 更 好 :glibe 知道 匿名 映射 已 经 被 填 满 零 值 ， 而 且 calloc() 会 对 一 
个 映射 不 需要 显 式 填 人 零 值 感到 满意 。 


系统 册 用 munmap 1() 会 释放 一 个 匿名 觅 射 ， 并 且 将 已 分 配 的 内 存 释放 回 内 棱 : 
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int 七 号 七; 


+:* 释放 PP 之后， 会 给 回 512 KB 的 映射 
Tet = murimap (BE, Sl2 * 1024). 
1if {ret) 

Perror ("mnmap"™).; 





映射 /dev/zero 
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of 


mmap()、munmap () 以 及 映射 的 相关 细节 可 登 考 第 四 音 。 


其 他 的 Unix 系统 ， 例 如 BSD ， 并 不 具有 MAP_ANONYMOUS 标志 。 事 实 上 ， 它 们 是 通 
过 映射 一 个 特殊 设备 文件 /aevwzero 来 实现 类 似 的 解决 方案 。 此 设备 文件 为 匿名 内 存 提 供 
本 一致 的 语 浆 。 一 个 映射 包含 了 填 满 零 值 的 写 入 时 才 复 制 (copy-on-write) 页 面 ， 因 此 


映射 /aewzero 的 行为 如 同 使 用 莫名 内 存 。 


Linux 上 总 是 可 以 找到 /aewzero 设备 ， 而 且 提 供 了 映射 此 文件 与 取得 填 满 零 值 的 内 存 
的 能 力 。 的 确 ， 引 进 MAP_ANONYMOUS 之 前 ，Linux 程序 设计 者 就 是 采用 此 做 法 。 为 
了 向 下 兼容 于 较 旧 版 的 Linux ， 或 是 移植 到 其 他 Unix 系统 ， 开 发 者 仍然 可 以 映射 /dev/ 
zero 以 便 取代 创建 一 个 匿名 映射 的 做 法 。 这 与 映射 任何 其 他 文件 并 无 不 同 。 


void #*p; 


int fd: 


A 打开 /dev/zero 以 备 读 取 与 写 和 人 */ 
fd = open {("/dev/zero", O_RDWR}: 
LE fd < DO 1 

Perror ff"open"y: 

Teturn -1; 


/A /dev/zero 的 [0,page size 觅 射 
D mmap (NULL, 
getpagesizer{}, 
PROT_READ | PROT_WRITE, 
MAP_ PRIVATE, 
fd. 
0); 


if (P == MAP FAILED) 1 
perror (1"mMmAp").; 
if {close {fq)) 
Perror ("close"): 
return -1; 


i 

1/* 此 处 无 其 紧 要 *;/ 

1* 上 本 射 - -个 页 面 */ 

A* 可 殿 读 取 与 写 人 人 */ 
+* 私有 陕 射 */ 

/ix 了 瞎 射 /aev zerG */ 
7* 无 全 移 最 * 7 
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} 


A 关闭 /devy zero， 不 再 需要 */ 
if (close lfd}) 
perror ("close"); 


/* pp 指向 内 存 的 一 个 页 面 ， 予 以 使 用 ……*/ 
以 此 方式 映射 内 存 时 ， 当 然 要 以 munmap () 解除 映射 。 


此 做 法 涉及 打开 与 关闭 设备 文件 的 额外 系统 调用 开销 。 因 此 , 匿名 内 存 是 一 个 速度 比较 
快 的 解决 方案 。 


高 级 内 存 分 配 


在 本 章 所 探讨 的 分 配 操作 中 ， 有 许多 受到 了 内 核 参 数 的 制约 ， 程 序 设计 者 可 加 以 变更 ， 
要 完成 此 事 ， 可 以 使 用 mallopt1(): 


#include <malloc.h> 


int mallopt (int param, int value); 


mallopt {) 可 用 于 将 param 所 指定 的 与 内 存 管理 有 关 的 参数 设 定 为 value 所 指定 
的 值 。 执 行 成 功 时 ， 此 调用 会 返回 一 个 非 零 值 ， 执行 失败 时 ， 它 会 返回 0 。 注 意 ， 
mallopt {) 不 会 设 定 errno。 它 总 是 会 成 功 返 回 ， 所 以 应 该 避免 任何 过 度 乐观 的 想 
法 : 可 以 从 返回 值 取得 有 用 的 信息 。 


Linux 当前 为 param 提供 了 六 种 值 (定义 于 <malloc.,h>): 


M CHECK ACTION 
MALLOC_CHECK_ 环境 变量 的 值 (下 一 节 会 讨论 到 )。 

NM MMAP_ MAX 
系统 可 用 于 满足 动态 内 存 的 请 求 的 映射 的 数目 上 限 ,。 当 达到 此 限度 时 ,数据 段 将 被 
用 于 所 有 分 配 ， 直 到 这 些 有 映射 中 有 一 个 被 释放 。 值 为 0 表示 禁止 将 匿名 映射 用 于 
动态 内 存 分 配 。 

M_ MMAP_THRESHOLD 
大 小 园 值 【以 字 刷 为 单位 )， 分 配 请 求 超过 此 值 时 ， 将 由 一 个 匿名 映射 (而 不 是 数 
据 段 ) 歼 得 满足 。 注 意 , 分 配 请 求 小 于 此 阅 值 时 , 在 系统 的 判断 之 下 , 也 可 能 由 匿 
名 映射 获得 请 足 。 值 为 0 代表 将 匿名 映射 用 于 所 有 分 配 ， 实 际 上 就 是 禁止 将 数据 
段 用 于 动态 内 存 分 配 。 
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M MXPAST 
fast bin (快速 二 进 制 文件 ) 的 大 小 上 限 。fast bin 是 堆 中 的 特殊 块 ， 它 们 绝对 不 
会 与 比邻 的 块 结合 , 也 绝对 不 会 被 返回 给 系统 , 可 用 于 进行 非常 快速 的 分 配 , 代价 
是 碎片 会 增加 。 此 值 为 0 时 代表 禁用 所 有 的 fast bin。 


M TOP_ PAD 
填充 的 数目 (以 字 节 为 单位 )， 用 于 调整 数据 段 的 大 小 。 每 当 glibc 使 用 brk() 
增加 数据 段 的 大 小 时 , 它 可 以 请 求 比 需要 的 更 多 的 内 存 , 以 避免 没 多 外 又 需要 进行 
另外 一 次 brk () 调用 。 同 样 地 ， 每 当 glibc 缩减 数据 段 的 大 小 时 ， 它 会 保留 额外 
的 内 存 ， 因 此 实际 给 回 的 内 存 比 它 应 该 给 回 的 少 。 这 些 额外 的 字 市 斌 是 填充 
(padding)。 值 为 0 时 代表 禁止 使 用 所 有 塌 充 。 

M_TRIM THRESHOLD 
数据 段 顶部 所 允许 的 可 用 内 存 { 以 字 刷 为 单位 /的 最 小 数量 .如 条 超出 此 国 值 ,glipc 
会 调用 brk() 以 便 将 内 存 给 回 内 核 。 

XPG 标 惟 所 定 闷 的 mallopt () 多 了 三 个 参数 : M._ GRAIN.M_KEEP [及 M_NLBLKS。 

尽管 Linux 也 定义 了 这 些 参 数 ， 但 是 设 定 它 们 的 值 毫 无 作用 。 表 8-1 完整 地 列 出 了 每 

个 有 效 的 参数 、 它 们 的 默认 值 以 及 它们 的 有 效 值 。 


表 8-1: mallopt() 参数 


参数 起 源 默认 值 有 效 值 ”特殊 值 
M_CHECK_ACTION Linux 特有 0 0-2 

M_ RAIN XPG 标 : 谁 Linux 不 支持 =0 

M_KEEP XPG 标准 Linux 不 支持 ”>=0 

M MMAP MAX Linux 特有 64 * 1024 >=0 0 禁用 mmap () 
M MMAP THRESHOLD Linux 特有 128 * 1024 >=0 0 禁用 堆 

M MXFAST XPG 标准 6 4 0-80 0 禁用 fastbin 
M_NLBUKS XPG 标 谁 Linux 不 支持 > 

M_TOP_PAD Linux 特有 0 >=0 0 禁用 填充 


程序 在 首次 调用 malloc1{) 或 任何 其 他 内 存 分 配 接 口 之 前 ， 必须 先 对 mallopt {) 进 
行 任何 的 调用 。 它 的 用 法 很 简单 


int ret: 


/* 将 mmap() 用 在 超过 64 KB 的 所 有 分 配 需求 */ 
ret = mallopt (M MMAP THRESHOLD, 64 * 1024): 
if (lret) 

fprantt stderr, "mallopt failed!‘\n"); 


> 
超 
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使 用 malloc_usable_size() 与 malloc_trim() 进行 微调 
Linux 提供 了 一 对 国 数 ， 可 以 对 glibe 的 内 存 分 配 系统 进行 低 端 的 控制 。 第 一 个 国 数 让 
一 个 程序 可 以 询问 特定 内 存 分 配 中 包含 多 少 可 用 宇 市 ; 

#include <malloc.h> 

Bize t malloc usable size (void *ptr); 
执行 成 功 时 ，malloc_usable_size{) 会 返回 ptr 所 指向 的 内 存 块 的 实际 分 配 大 
小 。 因 为 glibe 会 将 分 配 填 补 成 适合 放 进 一 个 现 有 的 块 或 匿名 映射 ， 所 以 一 个 分 配 中 的 
可 用 空间 可 能 会 大 于 所 请 求 的 空间 。 当 然 , 一 个 分 配 中 的 可 用 空间 绝 不 会 小 于 所 请 求 的 
空间 。 下 面 是 此 函数 的 使 用 范例 : 

Slze tt Jen = 21. 


Size t slze; 
char *butf: 


buf = malloc (len):; 
iF (ibuf} { 
DError ("malloc"y: 
return -1; 
} 
size = mallcoc usable sire (buf}: 
+:* 我 们 可 以 实际 使 用 size 个 字 节 的 buf …… * 
第 二 个 国 数 让 一 个 程序 得 以 要 求 glibe 将 所 有 立即 可 用 的 内 存 释 放 回 内 核 : 
#include <malloc.h> 
int malloc trim (size t padding):; 
执行 成 功 时 , malloc_trim() 会 尽 可 能 绢 减 数据 段 (扣除 所 保留 的 填充 字 市 )。 然后， 
它 会 返回 1 。 执 行 失 败 时 ， 此 调用 会 返回 0 。 通 常 ， 每 当 可 用 内 存 到 达 
M_TRIM_THRESHOLD 个 字 布 ，glibe 就 会 自动 进行 这 样 的 缩减 动作 。 它 会 使 用 
M_TOP_PAD 的 填充 数目 。 
除了 调试 或 教学 的 目的 ， 你 几乎 不 会 将 这 两 个 函数 用 在 其 他 地 方 。 它 们 不 具 可 移植 性 ， 
而 且 可 让 你 的 程序 取得 glibc 内 存 分 配 系 统 的 低 端 细节 。 
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调试 内 存 分 配 


通过 设 定 环境 变量 MALLOC_CHECK_, 一 个 程序 可 以 在 内 存 子 系统 中 启用 调试 功能 。 额 
外 的 调试 检查 会 降低 内 存 分 配 的 效率 ,但 是 在 应 用 程序 开发 期 间 的 调试 阶段 这 些 开 销 是 
值得 的 。 


因为 可 以 通过 一 个 环境 变量 来 控制 调试 , 所 以 不 需要 重新 编译 你 的 程序 。 例 如 ， 你 只 需 
要 执行 如 下 的 命令 ， 


5 MADLLOC_CHECEK_=1 /TUdder 


如 条 MALLOC_CHECK_ 被 设 定 为 0， 则 内 存 子 系统 会 默默 地 忽略 任何 错误 ， 如果 它 被 设 定 为 
1 ， 则 会 将 提供 信息 的 消息 输出 至 scaerr， 如 果 它 被 设 定 为 2， 则 程序 会 由 abort (ty 立即 
终止 。 因 为 MALLOC_CHECK_ 会 变更 运行 中 程序 的 行为 ， 故 setuia 程序 会 忽略 此 变量 ，。 


取得 统计 数据 
Linux 所 提供 的 mallinfo() 函数 可 用 于 取得 关于 内 存 分 配 系统 的 统计 数据 ， 


#include <malloc.h» 


atruct mallinfo mallinfo (void}):; 


mallinfo() 会 返回 mallinfo 结构 中 的 统计 数据 。 此 结构 的 返回 是 通过 值 ， 而 不 
是 通过 一 个 指针 。 此 结构 的 内 容 也 定义 于 <malloc.h>: 


/i* All sizes in bytes */ 

Btruct mallinfoe { 
int arenar /* size of data segment used by malloc */ 
int ordbiks; /* number of free chunks */ 
int smblka; /* number of faast bins */ 
int hblke; i* number of anonymous mappings */ 
int hblkha; /* Bize of anonymous mappings */ 
int usmblks; /* maximum total allocated size */ 
int fasmblks; /* aize of available fast bins */ 
int uordblkas; /* size of total allocated space */ 
int fordblkes; /* gize of available chunks */ 
int keepcost; /* size of trimable space */ 

】 


它 的 用 法 很 简单 : 
struct mallinfo m: 
m = mallinfco {1}: 


printf ("free chunks: Sd\n", m.ordb]ks): 
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Linux 还 提供 了 malloc_ stats() 函数 ， 此 函数 会 将 关于 内 存 的 统计 数据 输出 至 


stderr,: 

#include <malloc.h> 

void malloc states (void); 
在 一 个 内 存 密 集 型 (memory-intensive) 程序 中 调用 malloc_stats() 会 产生 一 些 大 
数字 : 


Arena 0D: 


systernn lyytes 三 名 65939d56 
iD USE bytes = 851988200 
Total tincl. mmap}: 

syvstem bytes - 3218519168 
in use bytes = 3202567912 
max mmap reglions = 5536 


max mmap Pytes 2350579712 


目前 我 们 已 探讨 过 的 动态 内 存 分 配 的 所 有 机 制 都 是 使 用 堆 或 者 内 存 映 射 来 取得 动态 内 存 
的 。 我 们 预期 也 应 该 是 这 样 ， 因 为 堆 与 内 存 映射 本 质 上 就是 动态 决定 的 。 堆 栈 是 程序 的 
地 址 空间 中 另 一 个 常见 的 数据 结构 ， 用 于 存放 程序 的 日 动 变 量 。 


然而 , 没有 理由 说 一 个 程序 设计 者 无 法 为 动态 内 存 分 配 使 用 堆栈 。 只 要 分 配 不 会 造成 堆 
栈 溢出 ,此 类 做 法 应 读 很 容易 , 而 且 应 该 可 以 执行 得 相当 好 。 要 从 堆栈 进行 动态 内 存 分 
配 ， 可 以 使 用 alloca() 系统 调用 : 


#incelude <alloca.h> 


void * alloca (size 七 size): 


执行 成 功 时 ，a1l1loca{) 会 返回 一 个 指针 ， 指 向 size 个 字 节 的 内 存 (空间 )。 此 内 存 
(至 间 ) 位 于 堆栈 上， 而 县 进行 调用 的 函数 返回 时 会 自动 收 释 放 。 有 些 实 现 会 人 在 执行 失 
败 时 返回 NULL ， 但 是 多 数 alloca() 实现 不 会 失败 或 者 不 能 汇报 失败 的 和 情况。 失败 
的 原因 只 可 能 是 维 栈 溢 册 。 


用 法 如 同 malloc (0) ,然而 你 不 需要 (的确 不 尾 ) 释放 所 分 配 的 内 存 。 下面 的 例子 是 一 
个 国 数 ， 此 畏 数 会 在 系统 的 分 配 目录 【可 能 是 /ete, 不 过 如 果 要 移植 到 其 他 系统 的 话 最 
好 在 编译 时 决定 ) 中 打开 所 指定 的 文件 。 此 图 数 会 分 配 一 个 新 的 缓冲 区 , 将 系统 分 配 目 
汞 复制 到 缓冲 区 ， 然 后 将 缓冲 区 与 所 提供 的 文件 名 衔接 在 一 起 : 
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int open sysconf {const char *file, int flags, int mode) 


{ 
const char *etc = SYSCONF DIR; /* "/etc/™ *)/ 
char *name; 
name = allioca {strlen (etc) + strlen (file) + 工 ) 
strcpy {name, etc},; 
strcat name, file):; 
return cpen (name, flags, mode}):; 

} 


返回 时 ， 因 为 会 进行 stack unwind 操作 ， 所 以 alloca() 所 分 配 的 内 存 会 被 目 动 释 
放 。 这 意味 着 ， 一 旦 从 调用 alloca() 的 函数 返回 ， 你 就 无 法 使 用 此 内 存 ! 然而 ， 因 
为 你 不 必 调 用 free() 来 进行 任何 清理 的 动作 ， 所 以 程序 代码 的 编写 较为 简洁 。 下 面 
使 用 malloc() 实现 相同 的 月 数 : 


int onen_sysconf (const char *file, int flags, int mode) 


{ 
const char *etc = SYSCONF DIR; /A* "fetco/™ *y 
char name: 
int fd; 
name = malloc {strien (etc) + strlen tfile} + 1); 
if (liname) 1 
perror (I"malloc"]); 
Teturn -1: 
} 
strepy (name, etc}; 
strcat name, file}:; 
fa = open lname, flags, mode); 
free lname: 
return ta; 
] 


注意 ， 你 不 应 该 在 一 个 国 数 调用 的 参数 中 直接 使 用 allocal) 分 配 肉 存 ， 因 为 这 样 所 
分 配 的 肉 存 会 存在 于 保留 给 函数 参数 使 用 的 堆栈 空间 中 。 例 如 ， 你 不 应 该 这 么 做 : 
/* 不 要 这 么 做 ! */ 


ret ~ fes {x, alloca {101): 
alloca{) 接口 有 一 段 坎坷 的 历史 。 在 许多 系统 上 , 它 的 表现 不 佳 , 其 至 会 出 现 未 定义 
的 行为 。 如 末 系 统 的 堆栈 尺寸 不 够 大 而 且 大 小 固定 ,使 用 alloca() 很 容易 造成 堆栈 
溢出 , 而 且 会 导致 程序 终止 运行 。 有 些 系统 上 甚至 不 提供 alloca() 。 渐渐 地 , 这 些 有 
缺陷 以 及 行为 不 一 致 的 实现 坏 了 alloca() 的 名 声 。 


目下 让 
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所 以 ， 如 果 你 的 程序 必须 考虑 可 移植 性 ， 你 应 该 避免 使 用 alloca()。 然 而 , Linux 上 
的 alloca() 是 一 个 非常 有 用 却 未 被 充分 利用 的 工具 。 它 的 表现 非常 好 一 一 在 许多 
架构 上 ， 经 alloca() 分 配 内 存 的 话 只 需要 增加 堆栈 指针 的 值 即 可 而 且 方 便 性 
优 于 mallocl() 。 在 Linux 专用 的 程序 代码 中 分 配 少 量 的 内 存 时 ,alloca() 可 以 有 
绝 佳 的 性 能 表现 。 





将 字符 串 复 制 到 堆 枝 
alloca() 常用 于 临时 复制 一 个 字符 种。 例如 ， 
/* 我 们 想 要 复制 “song” */ 


char *dup; 


dup = alloca {strlen (song}) + 1]); 
Stroepy ldup, Scong); 


A 棵 作 dUD 证” 

return; /* aup 会 被 自动 释放 */ 
因为 时 常会 有 这 种 需要 ,而且 a11oca () 有 速度 快 的 优点 ， 所 以 Linux 系统 为 
strdup () 提供 了 者 干 变 体 ， 用 于 将 所 指定 的 字符 串 复 制 到 堆栈 : 


#9define _GNU_3SCURCE 
#incl]ude <string.h> 


char * strdupa (const char *a); 
char * gtrndupa (const char *e, Size tt n); 


调用 strdaupa() 会 返回 s 的 一 个 副本 。 调 用 strndupa{) 会 复制 s 中 的 n 个 字符 。 
如 果 s 的 字符 数目 大 于 P， 则 会 在 第 n 个 字符 停止 复制 ， 而 且 国 数 会 在 最 后 添加 一 个 
null 字 节 。 这 两 个 国 数 的 优点 如 同 a116ca({)。 当 进行 调用 的 函数 返回 时 ， 所 复制 的 
字符 串 就 会 白 动 被 释放 ， 

POSIX 并 未 定义 allocal)、strdupat) 和 strndupa() 等 函数 ,而 且 它 们 在 其 
他 操作 系统 上 有 不 良 的 记录 。 如 果 考 虑 到 可 移植 性 ， 不 建议 使 用 这 些 函 数 。 然 而 ， 在 
Linux 上 ，alloecal) 等 羡 数 的 表现 不 俗 ， 而 且 可 以 提供 绝 佳 的 性 能 ， 因 为 仅 需 调整 
堆栈 帆 指 针 、 而 不 必 进 行 复杂 的 动态 内 存 分 配 。 


变 长 数组 
C99 引进 了 变 长 数组 (variable-length array， 常 简写 为 YLA)， 此 数组 的 长 度 在 运行 
时 《而 非 编 译 时 ) 设 定 。GNU C 对 变 长 数组 的 支持 已 经 有 一 段 时 间 了 , 但 后 来 C99 才 
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将 它们 标准 化 ， 这 为 它们 的 使 用 提供 了 更 大 的 诱因 。 如 同 alloca()，VLA 免除 了 动 
态 肉 存 分 配 的 开销 。 


它们 的 用 法 正如 你 所 预期 的 那样 ; 


for (i = 0; i < nn; ++1i} 1 
har fooli + 11]: 


px 使 用 foo ee#y 

) 
在 这 个 程序 代码 片段 中 ，foo 是 一 个 长 度 为 1i+1 的 char 数组 (也 就 是 说 ， 这 个 数组 
是 由 i+1 个 类 型 为 char 的 变量 所 构成 )。 在 每 次 的 循环 中 ,foo 会 被 动态 创建 ， 并 且 
在 离开 作用 域 时 被 自动 清除 。 如 果 我 们 以 al11oca() 来 取代 一 个 YLA， 则 内 存 不 会 
被 释放 ,除非 国 数 返 回 。 使 用 VLA 可 确保 内 存在 每 次 的 循环 中 被 释放 。 因 此 ， 使 用 一 
个 VLA 至 多 会 耗 用 n 个 字 节 , 然而 使 用 alloca() 则 会 耗 用 n* (n+1)72 个 字 节 。 


我 们 可 以 使 用 一 个 变 长 数组 将 cpen_sysconf () 改写 成 下 面 这 样 ;: 


int open sysconf ticeonst char *file, int flags, int mode) 


{ 
COonst char *etc = SYSCOONF_ DIR; /A* "ete/®™ *y 
char name[lstrlen (etc + strlen ifile)} + 1]; 
strecpy {name, 总 七 它 ) 
strcat lname, file}: 
return copen (name, flags, mode!: 

} 


allocal) 与 变 长 数组 的 主要 差别 在 于 , 由 前 者 所 取得 的 内 存 会 一 直 保 留 到 函数 返回 ， 
而 经 后 者 所 取得 的 内 存 会 一 直 保 留 到 所 保存 的 变量 离开 作用 域 (这 可 以 发 生 在 当前 函数 
返回 之 前 ) 为 止 。 在 我 们 刚才 所 看 到 的 for 循环 中 ， 于 每 次 循环 中 回收 内 存 可 以 降低 
内 存 的 耗 用 量 , 而 不 会 有 任何 副作用 (我 们 不 需要 让 和 额外 的 内 存 基 置 在 一 旁 )。 然而 ,如 
果 基 于 某 个 原因 , 我们 想 保留 内 存 的 时 间 超 出 一 次 循环 迭代 , 那么 此 时 使 用 al1loca() 
会 更 有 意义 。 


本 由 
中 一 | 在 单一 函数 中 混用 al loca() 和 变 长 数组 会 招来 奇怪 的 行为 。 所 以 最 安全 的 做 
《SS 4 、 法 就 是 在 单一 函数 里 只 使 用 其 中 -种 机 制 。 
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选择 内 存 分 配 机 制 
本 章 提 到 了 各 式 各 梯 的 内 存 分 配 选择 , 可 能 会 使 得 程序 设计 者 无 法 确定 哪 种 是 适合 自己 


的 解决 方案 。 多 数 情况 下 , malloc () 是 你 的 最 佳 选择 。 然 而 ， 有 时 另 一 种 做 法 才 是 更 
好 的 选择 。 表 8-2 整理 出 了 选择 分 配 机 制 的 指导 方针 。 


分 配 机 制 。 ”优点 缺点 

malloc() 容易、 简单 、 通 用 所 返回 的 内 存 未 必 填 满 零 值 

calloc() ”简化 数组 的 分 配 ， 所 返回 的 内 存 。 ”如果 不 是 分 配 数组 ， 接 口 过 于 复杂 
填 满 零 值 

realloc () ”调整 现 有 分 配 的 大 小 只 能 用 于 调整 现 有 分 配 的 大 小 


brk(}) 与 sprk{) 可 对 夫 (heap) 进行 内 部 的 控制 对 多 数 用 户 而 言 太 过 低 水 平 
匿名 内 存 映射 窒 易 使 用 、 可 共享 ，、 人 允许 并 发 者 调整 是 小 型 分 配 的 次 优选 项 ;为 优选 项 
保护 等 级 以 及 提供 警告 信息 ;是 大 型 时 ,malloc() 会 自动 使 用 匿名 内 存 


映射 的 优选 项 快 射 
POS1IX- 分 本 内存 并 对 章 任何 适当 的 边界 相对 较 新 ， 因 此 可 移植 性 信人 质疑 ; 
memalign |) 必须 密切 关注 对 齐 问 题 ， 否 则 会 有 
很 大 的 杀伤 力 
memalign(}) 相 较 于 posix_memalign1!)， 并 揽 BOSIX 标准 , 所 提供 的 对 齐 控制 
与 valloc{) 较 常 用 在 其 他 的 Unix 系统 上 不 如 Posix_memalignl ) 
alLlocal) 分 配 速度 非常 快 ， 不 需要 显 式 释放 不 会 返回 错误 ， 不 适合 大 型 的 分 配 ， 
内 存 ; 韭 肖 扣 合 小 型 的 分 配 在 某 些 Unix 系统 上 会 出 问题 
变 长 数组 如 同 allocalti， 但 十 会 在 数组 离开 仅 用 于 数组 :在 某 些 情况 下 ， 
作用 域 【而 丰 是 在 国 数 返 回 ) 时 alloca{(} 释放 内 存 的 行为 可 能 更 
释放 内 存 ，” 胜 一 筹 ; 在 其 他 的 Unix 系统 上 不 


如 allocat) 常用 


最 后 ， 我 们 不 要 忘 了 以 上 这 些 选项 的 替代 方案 : 自动 与 静态 内 存 分 配 。 在 堆栈 上 分 配 自 
动 变量 , 或 者 在 堆 上 分 配 全 局 变量 通 第 更 容易 , 而且 不 需要 程序 设计 者 管理 指针 或 者 担 
心 内 存 释 放 的 问题 。 
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操作 内 存 


C 语言 提供 了 一 系列 函数 用 于 操作 内 存 的 原始 字 节 。 这 些 国 数 的 运作 在 许多 方面 均 业 似 
于 字符 串 操作 接口 ,例如 strcmp() 与 strcpy()， 但 是 它们 所 依靠 的 是 用 户 提供 的 
缓冲 区 大 小 而 不 是 以 null 结尾 的 字符 串 。 注 意 ， 这 些 国 数 都 不 会 返回 错误 信息 。 避 免 
错误 是 程序 设计 者 的 责任 一 一 传人 错误 的 内 存 区 域 ， 没 有 别 的 选择 ， 只 会 导致 分 段 违 
例 的 结果 1 


设 定 字 市 
这 些 内 存 操作 函数 中 最 常用 的 当然 是 memset (1) : 
#include <satring.h> 
void * memset (void *e, int c¢, gize t n)} 
调用 memset ()， 可 从 s 开始 将 n 个 字 古 设 定 成 字 市 c 并 返回 s 。 此 图 数 痢 用 于 将 一 
个 内 存 块 填 病 零 值 
/* 将 [s,s+256] 填 请 零 值 */ 


memset (Ss, “D0 , 256}); 


bzero{) 是 一 个 较 旧 的 即将 废弃 的 接口 ， 由 BSD 所 引进 以 用 于 执行 相同 的 工作 。 新 
的 程序 代码 应 该 使 用 memset () ， 但 是 著 虑 到 疝 下 兼容 以 及 对 其 他 系统 的 可 移植 性 ， 
Linux 仍旧 提供 bzere () : 

#include <strings.h> 


void bzero {void *s, size 七 n); 
下 面 的 例子 如 同 前 面 的 memset () 范例 ; 
bzero {ss, 256)} 


注意 ，bzero() 一 一 以 及 其 他 名 称 以 b 开头 的 接口 一 一 需要 用 到 的 头 文件 是 


<Strings.h> 而 不 是 <string.h>。 


洽 志 


如 二 你 可 以 使 用 cal1loc() ,你 就 不 应 该 使 用 memset ()1 避免 先 使 用 

; malloc{) 分 配 内 存 , 接 着 使 用 memset () 将 它 填 满 零 值 ,尽管 结果 可 能 一 样 ， 

”但 将 两 个 函数 调用 (malloc() 与 memset()) 换 成 一 个 函数 调用 ({ calloc 1() 
会 运 回 填 满 零 值 的 内 存 ) 会 有 更 好 的 性 能 。 这 样 你 不 但 可 以 少 进 行 -…- 次 函数 调用 ， 
而 且 calloc() 还 可 以 从 内 恢 那 里 取得 填 满 零 值 的 内 存 。 在 此 情况 下 ， 你 不 必 
自己 动手 将 每 个 字 节 设 定 为 0， 而 且 可 以 提升 性 能 。 
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比较 字 市 
类 们 于 strcmp ()，memcmp{) 可 用 于 比较 两 个 内 存 块 是 否 相 等: 


#include <atring.h> 


int mememp (conast void *sl, const void *s2, size_t n); 


此 函数 会 比较 sl 与 s2 的 前 n 个 字 节 , 如 果 这 两 个 内 存 块 相等 则 返回 9; 如 术 sl 小 
于 s2 则 返回 小 于 零 的 值 ， 如 果 s1 大 于 s2 则 返回 大 于 雪 的 恒 。 


同样 ，BSD 也 提供 了 一 个 现在 即将 废弃 的 接口 ， 用 来 执行 大 致 相同 的 工作 : 
#include <stringa.h> 
int bemp (const void *si, conat void *a2, Baize t n); 


bcmp {) 会 比较 si 与 s2 的 前 n 个 字 节 , 如 果 这 两 个 内 存 块 相等 则 返回 0; 如 果 它 们 
有 所 不 同 则 返回 非 零 值 。 


因为 结构 会 被 填充 (参见 “其 他 的 对 齐 议题 ”一 节 ) ， 所 以 经 memcmp(} 或 bcmp1() 
比较 两 个 结构 是 否 相等 并 不 可 靠 , 一 个 结构 的 两 个 实例 会 因为 填充 中 了 包含 未 初始 化 的 垃 
圾 而 导致 不 相等 。 因 此 ， 如 下 的 程序 代码 井 不 安全 : 

/+* 两 稻 船 是 否 相 同 ? {不安 全】 */ 


int compare_dinghies (struct dinghy *a, struct dinghy *b) 
! 
return memcmp (a, b, sizeof (struct dinghny)); 


} 


事实 上 , 想 比较 两 个 结构 的 程序 设计 者 应 该 比较 两 个 结构 中 的 每 个 成 员 。 此 类 做 法 可 以 经 过 
优化 ， 但 是 所 花 的 工夫 绝对 会 比 不 安全 的 memcmp () 做 法 还 多 。 下 面 是 等 效 的 程序 代码 : 


/* 两 稻 船 是 否 相 同 ? */ 
int compare_dinghies {structl dinghy *a; struct dinghy *Db) 
{ 


int ret; 


if ta-»nr _ oars < b=->nNr_oars)} 
return 一 了; 

if fa->nr_coars > 有 ->mT_ 口误 TS)} 
return 1; 


ret = strcemp (a->boat_name, b->boat name}; 


if (ret) 
Eturn Tet: 


/* 等 等 ， 比 较 每 个 成 员 ……*/ 
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移动 字 节 
memmove {) 会 将 src 的 前 了 个 字 节 复制 到 ast 并 返回 dst: 


#include <astring.h> 

void * memmove (voiqd *dast, const void *grc, size 七 n); 
此 外 ，BSD 也 提供 了 一 个 即将 废弃 的 接口 ， 用 以 执行 相同 的 工作 : 

#include <strings.h> 

void bcopy {const void *src, void *det, size 七 n); 
注意 , 尽管 这 两 个 函数 所 需 的 是 相同 的 参数 , 但 是 bcopy () 中 前 两 个 参数 的 次 序 古 相 
反 的 。 
bcopy () 与 memmove() 可 以 安全 地 处 理 重 县 的 内 存 区 域 (例如 ， 如 果 dst 的 一 部 
分 位 于 src 的 区 域内 )。 例如 ,这 让 内 存 中 的 字 节 得 以 在 指定 的 区 域内 上 移 或 下 移 。 因 
为 此 情况 并 不 常见 ， 所 以 遇 到 这 种 情况 时 程序 设计 者 将 会 知道 ，C 标准 所 定义 的 
memmowve () 变 体 并 不 支持 重 又 的 内 存 区 域 。 这 个 变 体 的 执行 速度 可 能 更 快 : 

#include <satring.h> 

void * memcpy (void *dst, const void *src, size t nn);} 
此 函数 的 行为 如 同 memmove () ,但 是 dst 和 src 不 可 以 重 又 。 如 果 重 全 ,结果 会 变 
成 未 定义 的 。 
memccpy () 是 另 一 个 安全 的 复制 函数 

#include <string.h> 

void * memccpy (void *dst, congst void *src, int ee, gize 七 n}); 
memccpy () 国 数 的 行为 如 同 memcpy (), 但 是 如 果 此 函数 在 src 的 前 个 字 节 中 发 
现 字 节 c 则 会 停止 复制 。 此 函数 会 返回 一 个 指针 ， 指 疝 dst 中 c (如 果 找 不 到 < 则 十 
NULL) 之 后 的 下 一 个 字 布 。 
最 后 ， 你 可 以 使 用 mempcpy () ， 将 数据 复制 到 连续 的 内 存 位 置 : 


#define GNOU SOURCE 
#include <gtring.h> 


VDI * mempepy (void *dst, const void *sarc, Bize t n); 


mempcpy () 国 数 的 执行 如 同 memcpy () ,但 是 它 会 返回 一 个 指针 ， 指 问 所 复制 的 最 
后 一 个 字 节 之 后 的 下 一 个 字 节 。 如 果 你 有 一 组 数据 要 复制 到 连续 的 内 存 位 置 , 这 会 很 有 


294 第 八 章 





用 一 一 但 是 并 没 多 大 的 不 同 ， 因 为 只 不 过 是 返回 值 成 为 ast+n。 这 是 GNU 特有 的 函数 。 


搜索 字 贡 

国 数 memchr 1{) 与 memrchr() 可 用 于 找 出 特定 字 节 在 一 个 内 存 块 中 的 位 置 ; 
#include String.h> 
void * memchr {conast void *e, int c¢, size 七 n); 


memchr() 国 数 会 在 s 所 指向 的 内 存 的 n 个 字 刷 中 搜索 字符 c (会 被 解释 成 一 个 


unsigned char), 


#define _GNU SOURCE 
#incjude <Btring.h> 


Void * memrchr (conat void *s, int c, size 七 n):; 
此 调用 会 返回 一 个 指针 ,指向 第 一 个 与 c 相 匹 配 的 字 市 ,如 果 找 不 到 c 则 会 指向 NULL。 
memrchr() 图 数 如 同 memchr{) 国 数 , 但 是 它 会 从 s 所 指 问 的 n 个 字 市 的 尾 端 往 回 


搜索 (而 不 是 从 首 端 往 前 搜索 )。 与 memchr() 不 同 的 是 , memrchr() 是 GNU 的 一 
个 扩充 ， 而 且 不 是 C 语言 的 一 部 分 。 


至 于 更 复杂 的 搜索 工作 ,可 以 使 用 memmem() 函数 在 一 个 内 存 块 中 搜索 任意 的 字 节 数组 : 


#define GNU SOURCE 
#include <string.h> 


void * memmem (const void *havystack, 
Bize_t hayatacklen, 


CONnst void *needle, 
gize t needlelen):; 


memmem() 国 数 会 返回 一 个 指针 ， 指 向 长 度 为 haystacklen 个 字 节 的 内 存 块 
naystack 中 第 一 次 出 现 长 度 为 needlelen 个 字 节 的 子 块 neeale。 如 果 此 国 数 没 
有 在 haystack 中 找到 needle ， 则 会 返回 NULL。 此 函数 也 是 GNU 的 一 个 扩充 。 


旋转 字 节 
Linux C 链接 库 提 供 了 一 个 接口 ， 可 用 于 对 数据 的 字 节 进行 简单 的 旋转 (convolute): 


#define GNU SOURCE 
#include <atring.h> 


Void * memfrob {void *ag, sizge 七 n); 
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memfrob{) 会 隐藏 s 开始 的 内 存 的 前 n 个 字 节 , 方法 是 使 用 数值 42 对 每 个 字 节 进行 
exclusive-OR ( 异 或 ， 常 简写 为 XOR) 逻辑 运算 。 此 调用 会 返回 s。 


调用 memfrob() 的 结果 可 以 被 反 转 回来 ,方法 是 对 相同 的 内 存 区 域 再 调用 一 次 
memfrob({)。 因 此 ， 如 下 的 程序 代码 片段 等 于 没有 对 secret 进行 任何 操作 。 


memfrob {memfrob lsecret, len}, leni: 


此 函数 无 法 正确 替代 加 密 (或 者 仅 是 一 个 差劲 的 替代 品 1， 它 的 用 途 仅 限 于 普通 的 字符 
中 隐藏 ， 是 GNU 特有 的 国 数 。 


锁定 内 存 

Linux 实现 了 请 求 页 面 调度 (demand paging)， 这 意味 着 在 有 需要 时 ， 页 面 会 从 磁盘 换 
入 (swap in) 内 存 ， 不 再 需要 上 时， 页 面 会 被 换 出 (swap out) 至 磁盘 。 这 让 系统 上 进 
程 的 虚拟 地 址 空间 与 物理 内 存 的 总 数 之 间 没 有 直接 的 关系 ,因为 磁盘 上 的 交换 空间 可 以 
呈现 物理 内 存 几乎 无 限 供 应 的 假 衣 。 


页 面 的 交换 会 自动 发 生 ， 而 且 应 用 程序 一 般 不 需要 关心 【甚至 是 知道 ) Linux 内 核 的 页 
面 调度 行为 。 然 而 ， 在 两 种 情况 下 ， 应 用 程序 会 想 影响 系统 的 页 面 调度 行为 : 


兢 定 糙 | 
有 时 间 限 制 的 应 用 程序 需要 有 确定 性 的 行为 。 如 果 某 些 内 存 访问 导致 页 面 失误 
这 会 发 生 代价 昂贵 的 磁盘 1O 操作 ， 应 用 程序 会 因此 而 用 完 它 的 时 间 配 额 。 若 能 
够 确保 应 用 程序 所 需要 的 页 面 总 是 位 于 物理 内 存 中 而 不 会 被 交换 到 磁盘 上 , 则 应 用 程 
序 可 以 保证 内 存 访 问 不 会 产生 页 面 失误 的 结果 ， 提 供 一 致 性 、 确 定性 并 改善 性 能 。 
安全 从 
如 果 有 私密 的 数据 被 保存 在 内 存 中 ,这 些 私密 的 数据 可 能 会 被 变换 出 去 并 以 未 加 密 
的 形式 存放 到 磁盘 上 。 举 例 来 说 , 如 果 一 个 用 户 的 密 钥 在 正常 的 情况 下 会 以 加 密 过 
的 形式 存放 在 磁盘 上 , 则 内 存 中 密 钥 的 一 个 未 加 密 副 本 可 能 会 出 现在 交换 文件 中 。 
在 高 度 重视 安 全 性 的 环境 中 , 这 种 行为 也 许 是 不 能 被 接受 的 。 有 此 类 顾虑 的 应 用 程 
序 可 以 要 求 包 含 密 钥 的 内 存 总 是 保留 在 物理 内 存 中 。 
当然 , 改变 内 核 的 行为 可 能 会 对 系统 整体 的 性 能 造成 负面 的 影响 。 一 个 应 用 程序 的 确定 
性 或 安全 性 可 以 获得 改善 , 但 是 当 它 的 页 面 被 锁定 在 内 存 中 时 , 另 一 个 应 用 程序 的 页 面 
将 会 被 交换 出 去 。 内 核 〈 如 果 我 们 信赖 它 的 设计 ) 总 是 会 将 最 优选 的 页 面 换 出 至 磁盘 一 
一 也 就 是 未 来 最 不 可 能 被 用 到 的 页 面 , 所 以 当 你 变更 内 核 的 行为 时 , 它 必 须 将 次 优选 的 
页 面 换 出 至 磁盘 。 
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锁定 部 分 地 址 空间 
POSIX 1003.1b-1993 定义 了 两 个 接口 ， 可 以 把 一 个 或 多 个 页 面 锁定 在 物理 内 存 中 ， 以 
确保 它们 不 会 被 换 出 至 磁盘 。 第 一 个 接口 可 以 锁定 指定 地 址 区 间 : 

#include <Svea/mman.hy 


int mlocak ‘const void *addr, gize t len); 


调用 mlock() 可 以 从 adaar 开始 把 虚拟 内 存 中 len 个 字 节 锁定 在 物理 内 存 里 。 执 行 
成 功 时 ， 此 调用 会 返回 0; 执行 失败 时 ， 此 调用 会 返回 -1， 而且 会 将 errno 设 定 为 
适当 的 值 。 


一 次 成 功 的 调用 可 以 把 包含 [addr,addr+len] 的 所 有 物理 页 面 锁 定 在 内 存 里 .举例 
来 说 ， 如 果 一 次 调用 仅 指定 了 单一 字 节 ， 则 包含 该 字 节 的 页 面 会 被 整体 锁定 在 内 存 中 。 
POSTX 标准 规定 addr 应 该 对 齐 一 个 页 面 的 边界 。Linux 不 会 强制 执行 此 要 求 ， 只 会 
在 有 需要 时 默默 地 将 adadr 调整 至 最 接近 的 页 面 。 然 而 ， 需 要 移植 到 其 他 系统 的 程序 
应 该 确保 adar 位 于 一 个 页 面 的 边界 上 。 


有 效 的 errno 代码 包括 : 


EINVAL 
参数 len 为 负 值 。 

ENOMEM 
壮 用 者 试图 锁定 比 RLIMIT_MEMLOCK 资源 限制 所 允许 的 更 多 的 页 面 (参见 “ 锁 
定 限制 ”一 布 )。 

EPERM 
RLIMIT_MEMLOCK 资源 限制 的 值 为 0， 但 是 进程 并 不 具有 CAP_IPC_LOCK 能 
力 (同样 参见 “锁定 限制 ”一 节 )。 
Ee | 

2 -个 子 进程 无 法 跨越 fork () 继承 被 锁定 的 内 存 。 然 而 ， 由 于 Linux 中 地 址 空 
aa 则 的 写 人 时 才 复制 (copy-on-write) 行为 , 一 个 子 进程 的 页 面 会 被 有 效 地 锁定 在 
内存! PF ， 直 到 子 进程 写 入 它们 。 


举 一 个 例子 , 假设 程序 会 在 内 存 中 保存 一 个 已 解密 的 字符 串 , 于 是 它 的 进程 可 以 使 用 如 
下 的 程序 代码 锁定 包含 该 字符 串 的 页 面 ， 
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int ret:; 


i* 将 “secret” 锁定 在 内 在 中 */ 
已 mlock Ilsecret, strlen (secret))}); 
if (ret) 

perror ("mlock"}:; 


锁定 整个 地 址 空间 
如 果 一 个 进程 想 将 它 的 整个 地 址 空间 锁定 在 物理 内 存 中 , mlock() 并 不 适用 。 对 于 此 
类 用 途 一 一 常见 于 实时 应 用 程序 ，POSIX 定义 了 一 个 系统 调用 ， 可 用 于 锁定 整个 地 址 
空间 : 

#include <syes/mman.h> 


int mlockall (int flags}: 


调用 mlockal1l() 可 以 把 当前 进程 地 址 空间 中 的 所 有 页 面 锁定 在 物理 内 存 中 。flags 
参数 (此 参数 可 以 被 设 定 成 下 列 两 值 的 按 位 OR 逻辑 运算 ) 可 用 于 控制 此 行为 : 


MCL CURRENT 
如 果 设 定 了 ， 此 值 会 指示 mlockall() 把 当前 被 映射 的 所 有 页 面 一 一 堆栈 、 数 
据 段 、 映 射 文件 等 一 一 锁定 在 进程 的 地 址 空间 。 

MCL_FUTURE 
如 果 设 定 了 ,此 值 会 指示 mlocka1ll() 把 将 来 会 被 映射 至 地 址 空间 的 所 有 页 面 也 
锁定 在 内 存 。 

多 数 应 用 程序 会 指定 这 两 值 的 按 位 OR 逻辑 运算 。 


执行 成 功 时 ， 此 调用 会 返回 0， 执行 失败 时 ， 它 会 退回 -1 并 且 将 errno 设 定 为 下 列 
其 中 一 个 错误 代码 : 


ELINVADL . 
参数 flags 是 一 个 负 值 。 

ENOMEM 
调用 者 试图 锁定 比 RLIMIT_MEMLOCK 资源 限制 所 允许 的 更 多 的 页 面 (参见 “ 锁 
定 限制 ”一 节 )。 

EPERM 
RLIMIT_MEMLOCK 资源 限制 的 值 为 0, 但 是 进程 并 不 上 有 具有 CAP_IPC LOCK 能 
力 (同样 参见 “锁定 限制 ”一 节 )。 
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ee 


替 内 存 解锁 


为 了 圭 物 理 内 存 中 的 页 面 解锁 ， 再 次 允许 内 校 于 有 需要 时 将 相应 页 面 换 出 至 磁盘 ， 
POSIX 标准 化 了 另外 两 个 接口 : 


#include <sya/Timan.hy 


int munlock (const void *addr, saize t len); 
int mnlockall (voidy; 
系统 调用 munlock() 可 以 替 从 addr 开始 的 页 面 (扩展 至 len 个 字 厄 ) 解锁 ， 它 可 
上 以 让 mlock() 的 作用 失效 。 系 统 调 用 munlockall() 可 以 让 mlockall() 的 作用 
和 失效。 这 两 个 调用 会 在 执行 成 功 时 返回 0， 以 及 在 错误 发 生 时 返回 -1 并 且 将 errno 
设 定 成 下 列 的 其 中 一 个 值 : 
EINVAL 
参数 1en 是 无 效 的 (〈 仅 适用 于 munlock ())。 
ENOMEM 
所 指定 的 页 面 有 些 是 无 效 的 。 
EEFEERK 
RLIMIT_MEMLOCK 深 源 限制 的 值 为 0, 但 是 进程 并 不 有 具有 CAP_IPC_LOCK 能 
力 【同样 参见 “锁定 限制 ”一 贡 谢 
内 存 的 锁定 不 可 贬 套 。 因 此 单一 munlock() 或 munlockall() 替 一 个 被 锁定 的 页 
面 解 锁 时 ， 不 会 理会 该 页 面 被 mlock() 或 mlockall() 锁定 了 多 少 次 。 


锁定 限制 
因为 锁定 内 存 会 影响 系统 的 整体 性 能 一 - 的 确 ， 如 果 有 太 多 页 面 被 锁定 ， 会 导致 内 存 
分 配 失败 ， 所 以 Linux 会 对 一 个 进程 可 以 锁定 多 少 页 面 加 上 限制 。 


具备 CAP_IPC_LOCK 能 力 的 进程 可 以 将 任何 数目 的 页 面 销 定 至 内 存 , 不 具 此 能 力 的 进 
程 只 能 锁定 RLIMIT. MEMLOCK 个 字 节 。 默 认 情 况 下 ， 此 资源 限制 为 32 KB 一 一 足以 
将 一 笔 或 两 笔 具 私密 性 的 数据 锁定 在 内 存 中 , 二 又 不 至 于 影响 系统 的 性 能 (第 六 章 探 讨 
过 资源 限制 以 及 如 何 取得 与 变更 此 值 )。 


页 面 位 于 物理 内 存 内 吗 ? 


为 了 调试 与 诊断 ，Linux 提供 了 mincore() 国 数 ， 此 函数 可 判断 指定 内 存 区 域 是 否 
位 于 物理 内 存 中 或 是 已 被 换 出 至 磁盘 : 
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#include <unistd.h> 
#include <sva/mman.h> 


int mincore (void *etart, 

Bize _t length, 

unsgigned char *Vecl 
冰 用 mincore() 会 提供 一 个 向 量 , 描述 了 进行 系统 调用 时 一 个 映射 的 哪些 页 面 位 于 物 
理 内 存 内 。mincore() 会 经 vec 返回 此 向 量 , 用 于 描述 从 start (必须 与 页 面 对 齐 ) 
开始 的 页 面 并 扩展 至 1ength 个 字 节 (不 必 与 页 面 对 齐 )。vec 中 每 个 字 节 对 应 于 所 
指定 区 域 中 的 一 个 页 面 , 第 一 个 字 节 用 于 描述 第 一 个 页 面 , 依 此 类 推 。 因 此 ，vec 必须 
至 少 足 以 包含 (Lergth-1+ page size)/ page siZe 个 字 节 。 如 果 页 面 存在 于 物 
理 内 存 中 ， 则 相应 字 节 中 的 最 低位 会 被 设 为 1， 否则 会 被 设 为 0。 其 他 位 日 前 未 定义 ， 
保留 给 未 来 使 用 。 


执行 成 功 时 ， 此 调用 会 返回 0; 执行 失败 时 ， 它 会 返回 -1 并 且 将 errno 设 定 为 下 列 
其 中 一 个 伍 : 


FEAGAIN 
内 核 的 可 用 资源 不 足以 完成 此 请 求 。 
EFAULT 
参数 vec 指向 了 一 个 无 效 的 地 址 。 
EINVAL 
参数 start 并 未 对 齐 一 个 页 面 的 边 般 。 
ENOMEM 
[address,address+1] 所 包含 的 内 存 并 非 基 于 文件 映射 的 一 部 分 。 
目前 ， 此 系统 调用 仅 适 用 于 以 MAP_SHARED 所 创建 的 基于 文件 的 上 映射。 这 是 使 用 此 调 
用 时 最 大 的 限制 。 


投机 取 巧 的 分 配 策略 


Linux 采用 了 技 机 取 巧 的 分 配 【opporfanistic alfocation) 策略 。 当 一 个 进程 向 内 核 请 
求 额外 的 内 存 时 一 一 例如， 通过 扩大 它 的 数据 段 , 或 者 通过 创建 一 个 新 的 内 存 上 映射 一 
一 内 核 会 对 额外 的 内 存 做 出 承诺 , 但 是 不 会 实际 提供 任何 物理 存储 空间 。 只 有 在 进程 写 
人 了 刚才 所 分 配 的 内 存 时 ,内核 才 会 通过 把 所 承诺 的 内 存 转换 成 物理 的 内 存 分 配 来 部 现 候 
的 承诺 。 内 核 会 按照 需要 以 逐 页 的 方式 进行 请 求 页 面 调 度 以 及 写 人 时 才 复 制 的 操作 。 
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些 行 为 具有 若干 优点 。 首 先 ， 延迟 分 配 内 存 的 做 法 让 内 核 得 以 延 后 大 部 分 的 工作 , 直到 
最 后 一 刻 一 一 必须 满足 所 承诺 的 内 存 时 。 其 次 ， 因 为 内 核 会 以 逐 页 的 方式 进行 请 求 页 
面 调度 来 满足 此 类 请 求 ， 所 以 只 有 实际 在 使 用 的 物理 内 存 才 需要 耗 用 物理 的 存储 空间 。 
最 后 , 所 承诺 的 内 存 数量 可 远 超过 物理 内 存 的 数量 以 及 可 利用 的 交换 空间 。 此 特性 称 为 
过 度 承 诺 (overcommitment)。 


过 度 承诺 与 内 存 不 足 

如 果 每 个 所 请 求 的 内 存 页 面 在 分 配 的 时 候 (而 非 使 用 的 时 候 ) 必须 存在 于 物理 存储 空间 
内 , 则 过 度 承 诺 让 系统 得 以 运行 比 原本 更 多 且 更 大 的 应 用 程序 。 若 无 过 度 承诺 ,一 个 2 GB 
文件 的 写 入 时 才 复 制 映射 将 需要 内 核 保 留 2 GB 的 存储 空间 ， 若 有 过 度 承 诺 ， 一 个 2 GB 
文件 的 映射 只 需要 替 进 程 实际 写 入 数据 的 每 个 页 面 保存 存储 空间 。 同 样 ,者 无 过 度 承 请 ， 
每 个 fork () 将 需要 足够 的 可 用 空间 以 便 复制 地 址 空间 ， 即 使 大 多 数 的 页 面 从 未 经 历 
写 人 时 才 复 制 。 


然而 , 如 果 进 程 试 图 满足 多 个 未 决 的 承诺 , 而 且 超 出 了 系统 所 具有 的 物理 内 存 以 及 交换 
空间 ,结果 会 如 何 ? 在 此 情况 下 ,必定 会 有 一 个 或 多 个 承诺 无 法 被 满足 。 因 为 内 核 已 对 
内 存 做 出 了 承诺 请 求 内 存 的 系统 调用 已 成 功 返 回 ， 而 且 进 程 会 试图 使 用 所 承诺 有 的 
内 存 ， 内 核 只 能 通过 杀 掉 一 个 进程 来 释放 可 用 的 内 存 。 





当 过 度 承 诺 导致 内 存 无 法 满足 所 承诺 的 请 求 时 ,我 们 说 发 生 了 内 存 不 是 (out of memory， 
常 简写 为 OOM) 的 情况 。 内 核对 QOM 情况 的 响应 是 使 用 OOM killer (内 存 不 足 杀 手 
程序 ) 选 出 适合 终止 的 进程 。 因 此 , 内 核 会 试图 找 出 耗 用 了 最 多 内 存 而 且 最 不 重要 的 进 


OOM 情况 并 不 常见 一 一 因此 允许 过 度 承 诺 仍 然 可 以 获得 很 大 的 好 处 。 然 而 ， 可 以 肯 
定 的 是 ， 此 情况 是 不 受 欢 迎 的 ， 而 且 通 过 OOM killer 以 不 可 预测 的 方式 终止 一 个 进程 
往往 是 不 可 接受 的 。 


对 于 会 发 生 此 情况 的 系统 而 言 , 内 核 允 许 我 们 由 文件 /proc/sys/vm/overcommit_memory 
以 及 等 效 的 sysctl 参数 vm.ocovercommit_memory 来 停止 过 度 承 诺 。 


此 参数 的 默认 值 为 0, 用 于 指示 内 核 执行 探 试 性 过 度 承诺 策略 (heuristic overcommitment 
strategy)， 人 允许 合理 的 过 度 承 诺 ， 但 是 不 允许 异乎 寻常 的 过 度 承诺 。 值 为 1 时 ， 人 允许 
所 有 的 过 度 承 诺 , 不 管 后 果 为 何 。 这 个 选项 适用 于 某 些 内 存 密集 型 应 用 程序 ,例如 科学 
领域 所 用 到 的 那些 程序 ， 它 们 会 试图 请 求 比 它 们 所 需要 的 还 机 多 很 多 的 内 存 。 
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值 为 2 时 会 完全 禁止 过 度 承 诺 ， 并 且 会 启用 sirict accounting (严格 记 账 ) 模式 。 在 此 
模式 中 ， 内 存 的 过 度 承诺 会 被 限制 成 交换 区 的 大 小 加 上 一 个 可 设 定 物理 内 存 的 百分比 。 
这 个 可 设 定 的 百分比 可 由 文件 /procisys/vm/overcommit_ratio 或 等 效 有 的 sysctl 参数 
vm.overcommit_ratio 来 设 定 。 默 认 值 为 50， 用 于 将 内 存 的 承诺 限制 成 交换 区 的 
大 小 加 上 物理 内 存 的 一 半 。 因 为 物理 内 存 中 还 包含 了 内 核 、 页 表 、 系 统 所 保留 的 页 面 、 
被 销 定 的 页 面 等 ， 所 以 实际 上 只 有 部 分 的 物理 内 存 是 可 交换 的 以 及 保证 能 够 满足 承 访 。 


strict accounting 的 使 用 顷 谭 慎 为 之 1 于 多 系 纸 玫 计 者 拒绝 接受 OOM killer 的 做 法 , 认 
为 strict accounting 是 一 个 万 灵 丹 。 然 而 ， 应 用 程序 所 进行 的 许多 非 必要 的 分 配 往往 会 
达到 过 度 承 诺 的 地 步 ， 让 此 行为 得 以 成 为 虚拟 内 存 背 后 的 主要 动机 之 -…。 





信号 (signal) 束 定 软件 中 断 所 提供 的 用 于 处 理 异 步 事件 的 一 个 机 制 。 事 件 可 以 来 自 系 
统 外 部 ， 例 如 当 用 户 产 生 中 断 字符 (通常 是 由 CtrlI+C ) 时 ; 或 者 来 自 程序 或 内 核 内 部 的 
活动 ， 例 如 当 进 程 执行 到 “ 除 以 零 ”(divides by zero) 的 程序 代码 。 因 为 信号 是 进程 
辣 遂 信和 的 主要 形式 ， 一 个 进程 还 可 以 传送 信号 给 另 一 个 进程 。 


关键 在 于 不 只 是 事件 发 生 的 方式 是 异步 的 一 一 倒 如 ， 程 序 执行 时 用 户 可 以 在 任何 时 间 
点 上 按 下 Ctrl+C 键 一 一 而 用 程序 处 理 信号 的 方式 也 是 异步 的 。 当 信号 被 递送 时 ， 程 序 
端 会 以 异步 的 方式 调用 向 内 核 注册 的 信号 处 理 国 数 。 


早期 的 Unix 就 已 经 包含 信号 。 然 而 随 着 时 间 的 推移 ， 它 们 已 经 有 所 演进 一 一 最 值得 
注意 的 是 可 靠 性 (因为 有 可 能 会 失去 信号 ) 以 及 功能 性 (因为 信号 现在 可 能 会 承载 用 户 
定义 的 有 效 载 荷 )。 起 初 ， 不 同 的 Unix 系统 对 信号 做 了 不 兼容 的 更 动 。 所 幸 ，POSIX 
将 信号 的 处 理 标准 化 ， 解 决 了 此 类 问题 。 这 个 标准 也 就 是 Linux 所 提供 的 以 及 此 处 所 
要 探讨 的 信号 处 理 机 制 。 


本 童 的 一 开始 我 们 会 概述 信和 号 并 探讨 信和 号 的 使 用 与 谋 用 ,接着 会 探 计 用 于 管理 和 操作 信 
号 的 各 种 Linux 接口 。 





具有 实用 价值 的 应 用 程序 多 半 必 须 跟 信 号 交互 就 算 你 刻意 把 应 用 程序 设计 成 进行 通信 
时 不 需要 用 到 信号 这 通 第 是 一 个 好 主意 , 某 些 情况 下 你 仍然 不 得 不 与 信号 为 伍 , 例 
如 当 程 序 收 到 终止 信号 时 。 
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二 [二 n 
言 号 的 概念 
信号 具有 一 个 非常 精确 的 生命 周期 。 首先 要 引发 (raise, 有 时 又 称 为 送出 或 产生 ) 一 个 信 
号 。 然 后 内 核 会 存储 该 信 与 ， 直 到 它 可 以 被 传递 出 去 。 最 后 ,一旦 有 时间， 内 核 会 适当 
地 处 理 该 信号 。 内 核 可 以 执行 下 齐 三 种 动作 中 的 种， 这 取决 于 进程 要 求 它 做 什么 : 


忽略 该 信和 号 
不 会 采取 任何 动作 。 有 两 种 信号 不 能 忽略 : SIGKILL 与 SIGSTOP。 这 是 因为 系 
统管 埋 者 需要 能 够 杀 掉 或 停止 进程 ， 如果 一 个 进程 可 以 选择 包 略 SIGKILL (使 得 
已 无 法 被 杀 折 ) 或 8IGSTOP (使 得 它 无 法 被 由 止 )， 则 它 将 有 权利 予以 规避 。 
捕获 以 及 处 理 该 信号 
内 核 可 和 暂停 进程 的 当前 程序 代码 执行 路 径 , 跳跃 至 先前 所 注册 的 一 个 函数 。 然 后进 
程 将 会 执行 此 国 数 。 一 旦 进程 从 此 国 数 返回 ， 它 将 会 跳 回 它 捕获 到 信号 时 暂停 之 
SIGINT 与 SIGTERM 是 两 个 常 被 捕获 的 信号 。 进 程 捕获 SIGINT 可 以 处 理 用 户 
所 产生 的 中 断 宁 符 , 例如 一 个 终端 可 以 捕获 此 信号 并 出 返回 主要 的 提示 符 。 进程 捕 
锋 STGTERM 可 以 在 终止 之 前 进行 必要 的 清理 工作 ， 例 如 关闭 网 络 连 接 或 称 除 临 
时 文件 。 至 于 SIGKILL 与 SIGSTOP 则 无 法 被 捕获 。 
执行 默认 的 动作 
此 动作 取决 于 被 送出 的 储 号 。 默 认 的 动作 通常 是 终止 进程 。 例 如 , 使 用 SIGKILL 
人 沉 。 然 而, 许多 信号 是 提供 给 在 特殊 情况 下 ee 而 
这 些 信 忆 在 默认 情况 下 会 被 忽略 ,因为 许多 程序 对 它们 并 不 感 兴 趣 , 稍 后 我 们 将 
各 种 信号 以 及 它们 的 默认 动作 。 
照 惯例 ， 当 一 个 信号 被 递送 时 , 处 理 信 号 的 函数 无 法 知道 发 生 了 什么 事 ， 除非 所 发 生 的 
是 特定 的 信和 号。 如 今 , 内 核 会 替 和 扯 接收 信号 的 程序 设计 者 提供 许多 操作 环境 , 而 且 信 号 
甚至 可 以 传递 用 户 定 义 的 数据 ， 如 同 较 新 且 更 高 级 的 IPC 机 制 。 


信号 标识 符 

每 个 信号 都 会 有 一 个 以 SIG 开头 的 标识 符 。 例 如 。sSIGINT 代表 当 用 户 按 下 Ctrl+C 键 
时 所 送出 的 信 身 ，SIGRABRT 代表 当 进 程 调 用 abert 1f) 国 数 时 所 让 出 的 信号 ， 而 
SIGKILDLD 则 代表 当 一 个 进程 被 强行 终止 时 所 送出 的 信号 。 


这 些 信 殷 标 识 符 全 部 定 尺 在 -一 个 头 文件 中 , 可 从 <signal.h> 3 引入。 c 
是 用 于 代表 正 整数 的 预 处 理 器 定义 一 一 也 就 是 每 个 信号 的 标识 符 (名 称 ) 会 被 关联 到 
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-个 整数 值 。 信 和 号 的 名 称 与 整数 值 的 映射 取决 于 实现 ， 而 且 不 同 的 Unix 系统 上 会 有 所 
差异 ， 虽 然 最 前 面 的 12 个 信号 通常 采用 相同 的 映射 方式 (例如 ，SIGKILL 就 是 声名 
狼藉 的 编号 为 9 的 信号 ), 一 个 好 的 程序 设计 者 总 是 会 使 用 信号 的 可 供 人 类 阅读 的 名 称 ， 
而 绝对 不 会 使 用 它 的 整数 值 。 


信号 的 编号 始 于 1 (通常 就 是 STGHUP)， 而且 会 继续 线性 地 向 上 增长 。 总 共 大 约 有 31 
个 信号 ， 但 是 多 数 程序 只 会 固定 使 用 其 中 的 几 个 信号 。 没 有 任何 信号 会 使 用 值 为 0 的 
编号 ， 这 个 特殊 值 就 是 所 谓 的 空 信号 (ml signal)。 事 实 上 ， 空 信号 并 不 是 十 分 重要 一 一 
它 并 不 会 具有 一 个 特殊 的 名 称 ， 但 是 有 些 系统 调用 (例如 kil11()) 会 使 用 值 为 0 的 
编号 来 代表 一 个 特殊 情况 。 


你 可 以 使 用 Kil -! 这 道 命 令 列 出 你 的 系统 所 支持 的 信和 号。 


Linux 所 支持 的 信号 
表 9-1 列 出 了 Linux 所 支持 的 信号 。 
表 9-1; 信号 列表 


信号 说 明 默认 行为 

SIGABRT 由 abort tt) 枯 出 终止 (terminate) 并 转 储 核心 
(core durmp |) 

SIGALRM 由 alarm() 送出 终止 

SIGBUS 硬件 或 对 齐 错误 终止 并 转 储 核 心 

SIGCHLD 子 进程 已 被 终止 忽略 

SIGCONT 进程 停止 后 继续 执行 忽略 

SIGFPE 算术 异常 事件 终止 并 转 储 核心 

SIGHUP 进程 的 控制 终端 被 关闭 (最 常见 的 情况 是 终止 

用 户 注销 系统 ) 

SIGILL 进程 试图 执行 一 个 非法 指令 终止 并 转 储 核心 

STGINT 用 户 产 生 了 中 断 字符 (Ctrl+C) 终止 

各 了 访问 异步 WO 事件 终止 ( 注 a) 

SIGKILL 无 法 捕获 的 进程 终止 信和 总 终止 


SIGPIPE 进程 将 数据 写 人 一 个 管道 ， 但 是 读 取 者 并 不 存在 终止 
SIGPROF 概要 分 析 定 时 器 到 期 (profiling timer expired) 终 小 


SIGPWR 电力 供应 上 失败 终止 
SIGQUIT 用 户 产 生 了 结束 字符 (Ctrl+\) 终止 并 转 储 核心 


SIGSEGV 无 效 的 内 存 访 问 终止 并 转 储 核心 


1 
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表 9-1: 信 身 列表 ( 续 表 ) 


说明 默认 行为 
SIGSTKFLT 协 处 理 器 (coprocessor) 堆栈 错误 终 目 ( 注 b) 
SIGSTOP 暂时 停止 进程 的 执行 停止 (stop) 
SIGSYS 进程 试图 执行 一 个 无 效 的 系统 调用 终止 并 转 储 核 心 
SIGTERM 可 以 捕获 的 进程 终止 信号 终止 
SIGTRAP 遇 到 有 断 点 (break point) 终止 并 转 储 核心 
SIGTSTP 用 户 产生 了 暂停 字符 (Ctrl+Z) 停止 
SIGTTIN 后 台 进 程 需 要 读 取 控制 终端 停止 
SIGTTOU 后 台 进 程 需 要 写 人 控制 终端 停止 
SIGURG 紧急 IO 挂 起 忽略 
SIGUSR] 进程 所 定义 的 信 筷 终止 
STGUSR2 进程 所 定义 的 信号 终止 
SIGVTALRM 以 ITIMER_VIRTURAL 标志 调用 setitimer{) 终止 

时 会 产生 此 信号 
SIGWINCH 控制 终端 窗口 的 大 小 被 变更 忽略 
SIGXCPU 超出 了 处 理 器 资源 限制 终止 并 转 储 核心 
SIGXFSZ 超出 了 文件 资源 限制 终止 并 转 储 核心 


注 a: 其 他 的 Unix 系统 ,例如 BSD， 会 忽略 此 信号 。 
注 b;: Linux 内 以 不 再 产生 此 傅 号 ， 保 留 它 只 是 为 了 向 下 兼容 。 


还 存在 一 些 其 他 的 依 号 值 ， 但 是 它们 被 定 交 成 与 其 他 值 等 效 :， SIGINFO 被 定义 成 
SIGPWR ( 注 1)，SIGIOT 被 定义 成 STGABRT， 而 SIGPOLL 与 SIGLOST 被 定义 成 
SIGIO, 


有 了 这 个 速 查 表 之 后 ， 让 我 们 深入 探讨 表 中 的 每 个 信号 : 


STOABRT 
abort () 图 数 会 将 此 信号 送 至 调用 它 的 进程 ,此 进程 然后 会 终止 并 产生 一 个 core 
文件 。 在 Linux 中 ， 当 条 件 失 败 时 ，assert ({) 之 类 的 断言 (assertion) 会 调用 


abort{(}, 


证 1 1: 只 有 Alpha 架构 会 是 义 此 信号 ， 它 并 不 会 看 在 于 任何 其 他 的 机 器 架构 上 。 


人 
地 
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SIGALRM 
当 定 时 器 到 期 时 ,alarm() [以 及 (使 用 7 了 ITIMER_READL 标志 的 )setitimer() 
函数 会 将 此 信号 送 至 调用 它们 的 进程 。 第 十 章 会 讨论 这 两 个 函数 以 及 相关 的 函数 。 

SIGBUS 
当 进 程 遇 到 内 存 保护 (这 会 产生 SIGSEGV) 以 外 的 硬件 失误 时 ,内核 便 会 引发 此 
信号。 在 传统 的 Unix 系统 上 ， 此 信号 用 于 表示 各 种 不 能 恢复 的 错误 ,例如 未 对 齐 
的 内 存 访问 。 然 而 ，Linux 内 核 会 自动 修正 此 类 错误 , 而 不 会 产生 此 信号 。 当 一 个 
进程 以 不 适当 的 方式 访问 由 mmap () (参见 第 八 章 对 内 存 映 射 所 做 的 讨论 ) 所 创建 
的 一 个 内 存 区 域 时 , 内 核 并 不 会 引发 此 信号。 除非 此 信和 号 被 捕获 , 否则 内 核 将 终止 
进程 以 及 产生 核心 转 储 。 

SIGCHLD 
每 当 一 个 进程 终止 (terminate) 或 停止 (stop) 时 ,内 核 会 将 此 信号 送 往 该 进程 的 
父 进程 。 因 为 SIGCHLD 默认 会 被 忽略 ， 所 以 如 果 父 进程 对 其 子 进 程 的 存 苗 感人 闪 
趣 ， 必须 显 式 子 以 捕获 与 处 理 。 此 信号 的 处 理 程 序 通 常会 调用 wait ()( 参 思 训 五 
章 所 做 的 讨论 ) 以 便 取得 子 进 程 的 pid 以 及 结束 代码。 

SIGCONT 
当 进 程 在 停止 之 后 继续 执行 时 , 内 核 便 会 送出 此 信号 。 上 默认 情况 下 , 此 信号 会 被 忽 
咯 , 但 是 如 果 进 程 想 在 继续 执行 时 进行 一 个 动作 , 则 可 以 予以 捕 线 。 此 信号 弟 用 寺 
希望 刷新 屏 侣 的 终 闹 下 编辑 故 。 


SIGFPE 
尽管 它 如 此 命名 ,但 此 信号 可 用 于 表示 任何 的 算术 异常 事件 ,而 不 仅 是 只 与 序 后 还 
算 (floating-point operation) 有 关 。 此 类 异常 事件 包括 上 溢出 (overflow )、 下 游 
出 (underflow) 以 及 除 以 零 (division by zero)。 默 认 的 动作 是 终止 进程 以 及 产 
生 一 个 core 文件 , 但 是 进程 也 可 以 依 需 要 捕获 及 处 理 此 信号 。 注 意 ， 如 果 进 程 选 
择 继续 运行 下 去 ， 进 程 的 行为 以 及 出 问题 的 运算 结果 并 未 定义 。 

STGHUP 
每 当 会 话 的 终端 断 线 时 , 内 核 便 会 将 此 信号 送 往 会 话 的 首领 进程 (session leader)。 
当 会 话 的 首领 进程 终止 时 ,内核 还 会 将 此 信号 送 往 前 台 进 程 组 中 的 每 个 进程 。 默认 
动作 是 终止 进程 ， 这 是 有 道理 的 一 一 此 信和 号 间接 表示 用 户 已 经 注销 。daemon 进 
程 使 用 了 一 个 机 制 “ 过 载 ”(overload) 此 信号, 以 指示 它们 重新 加 载 它 们 的 配 首 文 
件 。 人 例如， 传送 SIGHUP 给 Apache， 可 指示 它 重 新 加 载 httpdconf 将 SIGHUP 
用 于 此 目的 是 一 个 共同 的 惯例 ， 但 是 并 非 强 制 性 的 。 此 做 巷 之 所 以 安全 是 因为 
daemon 并 不 具有 控制 终端 ， 因 此 一 般 情 况 下 应 该 不 会 收 到 此 信号。 
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STGTTE 
人 
终止 此 进程 并 产生 核心 转 储 。 进 程 可 以 选择 捕获 及 处 理 STIGILL, 但 是 这 么 做 之 后 

它们 的 行为 是 未 定义 的 。 

SIGINT 


当 用 户 键入 中 断 字 符 (通常 是 Ctrl+C) 时 ， 此 信号 会 被 送 给 前 台 进 程 组 中 所 有 进 
程 。 默认 行为 就 是 终止 , 然而 进程 可 以 选择 捕获 并 处 理 此 信号 , 而 且 通 常 这 么 做 大 
为 了 在 终止 之 前 进行 清理 的 工作 。 


SIGIO 
当 一 个 BSD 形式 的 异步 IO 事件 产生 时 ， 便 会 送出 此 信号 。 此 形式 的 WO 很 少 被 
使 用 在 Linux 上 (参见 第 四 章 对 Linux 上 常见 高 级 IO 技术 所 做 的 讨论 )。 


SIGKILL 
此 信号 由 ki11() 系统 调用 发 送 ， 它 的 存在 为 系统 管理 者 提供 了 一 个 必定 会 成 功 
的 方法 , 可 用 于 无 条 件 杀 掉 一 个 进程 。 此 信号 无 法 被 捕获 或 忽略 , 而 且 它 的 结 末 总 
是 终止 进程 。 

SIGPIPE 
a 个 进程 将 数据 写 入 一 个 管道 ,但 是 读 取 者 已 经 被 终止 , 则 内 核 便 会 5| 发 此 信 

。 默 认 动 作 就 是 终止 进程 ， 不 过 此 信号 可 以 被 捕 绪 及 处 理 。 

SIGPROF 
概要 分 析 定 时 器 到 期 (profiling timer expire) 时 ， 如果 set itimer1{) 国 数 使 用 
了 ITIMER_PROF 标志 ， 便 会 产生 此 信和 号。 默认 动作 是 终止 进程 。 


SIGPWR 
此 信号 因 系 统 而 异 。 在 Linux 系统 上 ， 它 代表 电池 电力 不 足 的 情况 《例如 ,在 一 个 
不 断 电 系统 (UPS) 中 }。 于 是 监视 UPS 的 daemon 会 将 此 信号 传送 给 ii， 接 着 
i 希望 在 电源 耗 尽 之 前 完成 ! 


SIGQUIT 
当 用 户 将 结束 字符 (通常 是 Ctrl+\h 提供 给 终 病 时 ,内核 便 会 将 此 信和 号 送 往 前 台 进 
程 组 中 所 有 进程 。 默 认 动 作 就 是 终止 进程 以 及 产生 核心 转 储 。 

SIGSEGV 
当 进 程 试 图 进行 一 个 无 效 和 的 内 存 访问 财 ， 此 信号 ( 它 鸭 名 称 源 目 segmentation 
violation) 就 会 被 送 给 该 进程 . 这 包括 访问 未 被 映射 的 内 存 , 读 取 茉 止 读 取 的 内 存 、 
人 止 执行 内 存 中 的 程序 代码 或 者 写 人 禁止 写 人 的 内 存 。 进 程 可 以 捕获 及 处 理 此 

写 , 但 是 默认 的 动作 丰 终 止 进程 以 及 产生 核心 转 储 。 
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SIGSTOP 
此 信号 仅 由 kil1l() 函数 发 送 。 它 会 无 条 件 停 止 一 个 进程 而且 无 法 被 捕获 或 忽 
几 各 。 

SIGSYS 
当 进 程 试图 调用 一 个 无 效 的 系统 调用 时 , 内 核 便 会 将 此 信号 传送 给 该 进程 .如 外 -二 
进 制 文件 被 构建 在 较 新 版 的 操作 系统 上 (具有 和 较 新 版 的 系统 调用 ), 但 是 却 在 较 旧 
tl - 进 制 文 件 ， 计 它们 通过 glibe 
进行 系统 调用 应 该 就 不 会 收 到 此 信号 了 。 事实 上 , 无 效 的 系统 调用 应 该 返回 -1 并 
将 errno 设 定 成 ENOSYS。 

SIGTERM 
此 信和 号 仅 由 ki1l1() 发 送 , 它 让 用 户 得 以 优雅 地 终 进程 (默认 动作 )。 进 程 
Rs , 以 及 在 终止 之 前 进行 ; re 被 认为 是 
粗鲁 的 行为 而 且 无 法 及 时 终止 。 

SIGTRAP 
当 进 程 遇 到 一 个 断 点 (break point) 上 时， 内核 便 会 将 此 信号 传送 给 该 进程 。 通 常 ， 
调试 程序 会 捕获 此 信号 ， 而 其 他 进程 会 忽略 已。 

SIGTSTP 
当 用 户 提 供 暂 停 字 符 (通常 是 Ctrl+Z) 上 时， 内核 便 会 将 此 信号 送 往 前 台 进 程 组 中 
所 有 进程 。 

STOTTTN 
当 进 程 试 图 读 取 它 的 控制 终端 时 , 此 信号 会 被 传送 给 位 于 后 台 的 该 进 程 。 默认 动作 
是 停止 该 进程 。 

SIGTTOU 
当 进 程 试图 写 入 它 的 控制 终端 时 , 此 信号 会 被 传送 给 位 于 后 台 的 该 进程 。 默 认 动 作 
征 停 止 访 进程。 

SIGURG 
当 带 外 (out-of-band， 常 简写 为 OOB) 数据 已 经 抵达 一 个 socket 上 时， 内核 便 会 
将 此 信号 送 往 进程 。 带 外 数据 已 经 超出 了 本 书 的 范围 。 

SIGUSR1 与 SIGUSR2 

两 个 信 叶 可 用 于 用 户 所 定义 的 用 途 ， 内 核 绝 不 会 引发 这 两 个 信号 。 进 程 可 将 

SIGUSR1 与 STGUSR2 用 于 任何 用 途 , 一 个 常见 的 用 途 是 指示 daemon 进程 表现 
不 同 的 行为 。 黑 认 动 作 是 终止 进程 。 
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SIGVTALRM 
当 使 用 ITIMER_VIRTURAL 标志 所 创建 的 定时 器 到 期 时 ，setitimer1t) 国 数 便 
会 着 出 此 人 号。 定时 器 的 相关 细节 可 参考 第 十 草 。 

SITGWINCH 
当 终 端 窗口 的 大 小 有 所 变动 时 ,内核 便 会 将 此 信号 送 往 前 台 进 程 组 中 所 有 进程 。 黑 
认 情 况 下 , 进程 会 忽略 此 信和 号 , 但 是 如 果 它 们 知道 自己 的 终端 的 窗口 大 小 , 它们 可 
以 选择 捕获 及 处 理 此 信号 。iop 程序 便 是 一 个 捕获 此 信号 的 好 例子 ， 它 会 在 运行 时 
调整 窗口 的 大 小 并 且 监 视 它 的 啊 应 。 

SIGXCPU 

一 个 进程 超出 它 的 软 性 处 理 器 限制 (soft processor limit) 时 ， 内 核 便 会 引发 此 

信号 。 内核 将 继续 引发 此 信和 号, 每 秒 一 次 , 直到 进程 结束 或 超出 它 的 硬性 处 理 器 也 
制 (hard processor limit)。 一 旦 超出 硬性 限制 ， 内 核 便 会 给 进程 传送 一 个 
TLLL. 

SIGXFSZ 
当 一 个 进程 超出 它 的 文件 大 小 限制 (file size limit) 时 ， 内核 便 会 引发 此 信号 。 睦 
认 的 动作 是 终止 进程 ,但 如 果 此 信号 被 捕获 或 忽略 , 系统 调用 将 会 因为 超出 了 文件 
大 小 的 限制 而 返回 -1， 并 且 将 errno 议定 为 EFBIG。 


基本 的 信号 管理 


signal () 是 最 简单 且 最 旧 的 信和 号 管理 接口 。ISO C89 标准 ( 仅 标 准 化 了 所 支持 信号 
的 最 小 公分 母 ) 所 定义 的 signal() 系统 调用 非常 基本 。Linux 经 其 他 接口 (本 章 稍 
后 有 说 明 ) 对 信号 提供 了 更 充分 的 控制 。 因 为 signal 1{) 最 为 基本 ， 而 且 由 于 它 存 在 
于 ISOC 中， 相当 常见， 所 以 我 们 首先 会 说 明 它 ， 

#include <signal.h> 

typedef void (*gighandler _t) (int}); 

sighandler 七 signal (int signo, sighandler 七 handler)} 
signal() 用 于 移 除 收 到 signo 信号 时 所 采取 的 当前 动作 , 改 用 handler 所 指定 的 
信号 处 理 程序 来 处 理 访 信号。s igno 可 设 定 成 前 一 节 所 探讨 的 信号 名 称 ,例如 SIGINT 
或 SIGUSR1。 别 忘 了 ， 进 程 无 法 捕获 SIGKILDL 以 及 SIGSTOP” 所 以 赫 这 两 个 信号 
设置 处 理 程序 毫 无 意义 。 
nandler 函数 必须 返回 void， 这 是 有 道理 的 ， 因 为 (不同 于 一 般 函 数 ) 程序 中 没有 
一 个 标准 的 地 方 可 供 此 函数 返回 。 此 函数 具有 一 个 参数 (一 个 整数 )， 也 就 是 所 要 处 理 
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信和 号 的 信和 号 标识 符 (例如 SIGUSR2)。 这 样 一 个 函数 就 可 以 处 理 多 个 信和 号。 此 函数 的 原 
型 具有 如 下 的 形式 : 
VOld myY_handler (int signol); 
Linux 是 以 一 个 类 型 定义 (typedef) sighandler_t 来 定义 此 原型 的 。 其 他 Unix 系 
统 则 会 直接 使 用 函数 指针 ， 有 些 系 统 会 使 用 自己 所 定义 的 类 型 ， 但 可 能 不 是 叫做 
sighandler_t。 有 寻求 可 移植 性 的 程序 不 应 该 直接 引用 此 类 型 。 
当 内 核 送出 信号 给 一 个 注册 过 信号 处 理 程序 的 进程 时 ,内 核 会 暂停 程序 的 正常 指令 流 的 
执行 ， 并 且 调 用 信号 处 理 程 序 。 信 号 的 值 (也 就 是 最 初 提供 给 signal() 的 signo) 
会 被 传递 给 处 理 程序 。 
还 可 以 使 用 signal() 指示 内 核 为 当前 进程 忽略 指定 的 信号 ， 或 者 将 信 与 重 置 为 默 
行为 。 这 可 以 通过 为 nandler 参数 使 用 下 面 的 值 来 完成 ， 


STt DFL 
将 signo 所 指定 的 信号 的 行为 设 定 为 默认 值 。 以 SIGPIPE 为 例 ， 进 程 将 会 终 
下 ， 
SIG ToN 
忽略 signe 所 指定 的 信号。 
执行 成 功 时 ,signal() 函数 会 返回 信号 先前 的 行为 , 这 将 会 是 一 个 指针 , 指 问 一 个 信 
号 处 理 程序 (SIG_DFL 或 SIG_IGN)。 发 生 错 误 时 ， 此 函数 会 返回 SIG_ERR， 但 是 


不 会 设 定 全 INo., 


POSIX 所 定义 的 pause() 可 用 于 调试 以 及 编写 示 兄 性 程序 代码 片段 ， 它 会 让 一 个 进 
程 进 入 休眠 状态 ， 直 到 它 收 到 一 个 信号 ， 而 大 不 处 理 此 信号 ， 则 会 终止 进程 ; 
#include <unistd.h> 
int pause (void); 
pause() 只 会 在 接收 到 被 捕获 的 信号 时 才 会 返回 ， 在 此 情况 下 ， 信 号 会 被 处 理 ， 而 且 


pause() 会 返回 -1 并 且 将 errno 设 定 为 EINTR。 如 果 内 核 引 发 了 一 个 被 忽略 的 信 
号 ， 则 进程 不 会 被 唤醒 。 


在 Linux 内 核 中 ，Pausel() 是 最 简单 的 系统 调用 之 一 。 它 只 会 完成 两 项 工作 。 首 先 ， 
它 会 让 进程 进入 可 中 断 的 休眠 状态 。 其 次 ， 它 会 调用 schedGdule()， 以 便 调用 Linux 
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的 进程 调度 程序 , 找 出 另 一 个 进程 来 运行 。 因 为 此 进程 实际 上 并 未 在 等 待 什么 ， 所 以 内 
核 将 不 会 唤醒 它 , 除非 它 收 到 一 个 信和 号。 这 整个 过 程 只 需要 用 到 两 行 C 程序 代码 ( 汪 2)。 


范例 
让 我 们 来 看 两 个 简单 的 例子 。 第 一 个 例子 替 SIGINT 注册 了 一 个 信号 处 理 程序 (只 会 
输出 一 段 信息 )， 然 后 终止 程序 (因为 SIGINT 总 是 会 这 么 做 ): 


#include <stdlib.h> 
#include <stdio.h> 
tinclude <unistd.h> 
#include <slgnal.h> 


/* SIGINT 的 处 理 程序 */ 
static void SIGINT handler (int signo) 
『 
A 
* 在 技术 上 ， 你 不 应 该 在 单一 处 理 程 序 中 使 用 printf1)， 
* 但 它 不 是 世界 末日 。 
* 我 将 在 “可 重 入 性 ” 那 一 市 说 明 为 什么 ， 
wf 
printf ("Caught SIGSINT'I\n"}; 
exit (EXIT SUCCESS)}; 
} 
int main (voOid) 
-+ 


* 将 SIGINT_handler 注册 为 我 们 用 于 处 理 SIGINT 的 
* 信和 号 处 理 程序 。 


bh 

if (signal ISIGINT, SIGINT handler) SIG ERR) { 
fprintf (staderr, "Cannot handle SsIGINT!I\N"): 
exit (EXIT FAILURE}): 

} 

for rr;) 
pause 1}: 

return 0:; 


1 
J 


在 接 下 来 的 例子 中 ， 我们 圭 STGTERM 与 SIGINT 注册 了 相同 的 处 理 程序 。 我 们 还 将 
SIGPROF 的 行为 重 置 为 默认 值 (也 就 是 终止 进程 ) 并 且 忽 略 SIGHUP【《 人 否则 将 会 终止 
进程 )， 


注 2: 事实 上 ，pause() 还 不 算 最 简单 的 系统 调用 ，getpia() 与 gettid() 才 是 最 后 的 
优胜 者 ， 因 为 它们 只 需要 用 到 一 行 C 程序 代码 。 
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#include <stal1ib.h> 
#include <stdio.h> 

#include <unistd.h> 
#include <siagnal.h> 


yx SIGINT 的 处 理 程 序 */ 


static void sigqnal handler 【mL sigrno) 


{ 

if (signo == SIGINT) 
printf ("Caught SIGINTI\nNn"); 

else 1f signoe == SIGTERM) 
printf ("Caught SIGTERM! \nm").; 

else 1 
/* 这 应 读 不 可 能 发 生 */ 
fprintf (stderr, "Unexpected signal'\n"); 
exlt (EXIT_FAILURE):; 

} 


exlt (EXIT_SUCCESS); 


nt main (void) 
{ 


A 

* 将 signal_handler 注册 为 我 们 用 于 处 理 SISINT 的 

* 单一 处 理 程序 。 

if isignal (SIGINT, signal_handler) SIG_ERR} 1 
fprintf (stderr, "Cannot handle SIGINT!I\nN"); 
exit (EXIT FATLURE): 

} 

A 

* 将 signal_handler 注册 为 我 们 用 于 处 理 SIGTERM 的 

* 单一 处 理 程序 。 

wf 

if signal (SIGTERM, signal_handler) == SIG FRR) 1 


fprintf (stderr, "Canncst handle SISGTERMI\Nn"):; 


exlt (EXIT_FAILURE);}; 
} 


/* 将 SISPROF 的 行为 重 置 为 默认 值 。*/ 
it tisianal (SIGPROF, SIG DFL}Y == SIG._ERRY { 


fprintf (stderr, "Cannot reset SIGPROF!‘\nNn"): 


exit EXIT FAILURE): 
} 


fi* 忽略 SIGHUP。*/ 

if tsignal (SIGHUP, SIG_ IGN) == SIG_ERR) 1 
fprintf (stderr, "Cannot ignore SIGHUP!“n"):; 
exit (EXIT FAILURE):; 


for ({:,} 


pa 


地 
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er 
ia 


Bause (};} 


return 0; 


执行 与 继承 

当 一 个 进程 首次 被 执行 上 时， 所 有 的 信号 会 被 设 定 为 它们 的 默认 行为 , 除非 父 进 程 (也 殉 
是 执行 新 进程 的 进程 ) 忽略 它们 ， 在 此 情况 下 ,新 创建 的 进程 也 会 忽略 那些 信号 。 换 名 
话说 , 父 进程 所 捕获 的 任何 信号 在 新 的 进程 中 都 台 ee 然而 其 他 信号 则 
保留 原样 。 这 是 有 道理 的 , 因为 一 个 刚 被 执行 的 进程 不 会 上 共享 其 父 进 程 的 地 址 空间 ， 因 
此 不 会 存在 任何 已 注册 的 信号 处 理 程序 。 

此 行为 在 进程 的 执行 上 具有 一 个 重要 的 用 途 : 当 shell 在 后 台 执 行 一 个 进程 时 (或 者 当 
另 一 个 后 台 进 程 在 执行 男 一 个 进程 时 ) , 刚 被 执行 的 进程 应 该 会 忽略 中 断 与 结束 字符 。 因 
此 ,在 shell 执行 一 个 后 台 进 程 之 前 , 它 应 该 将 SIGINT 与 SIGQUIT 设 定 为 SIG_IGN。 
因此 ， 处 理 这 些 信号 的 程序 通常 会 先 检查 以 确定 它们 没有 被 忽略 。 例 如 


/x 处理 SIGINT, 但 只 发 生 在 它 未 被 忽略 的 情况 下 */ 


if (signal SIGINT, SIG_JQON;Y != SIG_IGN} 1 
ift (signal (SIGSINT, SIGINT_handler;} == SIC_ERR) 
fprintf tistderr, "Failed to handle SIGINT!\nNn").; 
} 
A* 处 理 SIGQUIT， 和 但 纪 发 生 在 它 未 被 忽略 的 情况 下 */ 
if (signal (SIGQUIT, SIG_IGN} != SIG_IGN) 1 
if signal (SIGOQUIT, STGOUTT_ handier) == SIG_ERE) 
forintf (stderr, "Falled Lo handle SIGSQUIT!\n"): 
} 


里 需要 设 定 一 个 信号 行为 来 检查 信号 的 行为 ， 这 显然 是 signal () 接口 中 的 一 个 缺 
陷 。 稍 后 ， 我 们 将 研究 一 个 私有 此 瑞 陷 的 国 数 。 


使 用 fork() 时 的 行为 表现 如 你 所 预期 的 会 有 所 不 同 。 当 一 个 进程 调用 fork() 时 ， 
i 这 也 十 有 道理 的 , 因为 子 进程 与 父 进程 共 
个 地 址 空间 ， 所 以 父 进程 的 信号 处 理 程 序 存 在 于 子 进 程 中 。 


将 信号 的 编号 映射 至 字符 串 

到 目前 为 止 所 举 的 例子 中 ,我们 都 是 直接 使 用 信号 的 名 称 。 但 是 有 些 时 候车 能 够 将 信号 
的 编号 转换 成 代表 其 名 称 的 字符 串 会 更 方便 (甚至 是 有 此 需要 )。 完 成 此 事 的 方法 不 目 
一 种 。 其 中 一 种 方法 就 是 从 一 个 静态 定义 的 列表 中 取得 字符 串 ， 
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extern const char * conast sys_ siglist[]; 


号 作为 索引 。 
另 一 种 方法 就 是 BSD 所 定义 的 psignal() 接口 ，Linux 也 支持 此 接口 : 

#include <Bignal ,hy> 

void paignal (int signo, conast char *magg);} 
psignal() 会 将 你 提供 给 msg 参数 的 字符 串 输出 至 staerr， 后 面 跟着 一 个 冒号 、 
一 个 空格 以 及 signo 所 指定 信号 的 名 称 。 如 果 signo 是 无 效 的 ， 则 所 输出 的 信息 也 
是 如 此 。 


strsignal() 是 一 个 比较 好 的 接口 ,尽管 它 未 被 标准 化 ,但 是 Linux 以 及 许多 非 Linux 
的 系统 也 部 支持 它 : 


#define _GNU _ SOURCE 
#include <atring.hy> 


char *aetrsignal {int signo):; 


strsignal() 会 返回 一 个 指针 ， 指 向 signo 所 指定 信号 的 一 段 描述 。 如 果 signo 
是 无 效 的 ， 则 所 返回 的 描述 通常 也 是 如 此 (事实 上 ， 有 些 支持 此 函数 的 Unix 系统 会 返 
回 NULL)。 所 返回 的 字符 串 只 有 在 strsignal1() 下 次 被 调用 之 前 是 有 效 的 ， 所 以 此 
锁 数 并 不 具有 线程 安全 性 。 
sys_siglist 通常 是 你 的 最 佳 选 择 。 采用 此 做 法 , 我 们 可 以 把 稍 早 的 信号 处 理 程 序 改 
写成 : 

astatic void signal_handler (nt signo) 

{ 


printf tt"Caught Ss\n", sys_siglist [signo}]}:; 
} 


‘ i 
发 送 一 个 信号 
kil1l(} 系统 调用 是 常见 的 后 1 实用 程序 的 基础 ， 可 用 于 从 一 个 进程 将 一 个 异 号 发 送 


#include <sya/typeas.h> 
#include <signal .hs> 


int kill (pid t pid, int signo)} 


了 12 


一 
| : 
宫 





一 般 情 况 下 (也 就 是 pia 的 值 大 于 0), ki1l1 1(}) 会 将 信号 signo 发 送 给 piqd 所 指定 
的 进程 。 


如 果 pia 的 值 为 0， 则 signo 会 被 发 送 给 进行 调用 的 进 划 程 所 属 进程 组 中 的 每 个 进程 。 


如 果 pid 的 值 为 -1， 则 signo 会 被 发 送 给 进行 调用 的 进程 有 权 对 其 发 送信 号 的 每 个 
进程 ， 不 ; ee init。 我 们 将 在 下 一 小 节 探 讨 控 制 信号 发 送 的 权限 。 


如 果 pid 的 值 小 于 -1， 则 signo 会 被 发 送 给 进程 组 -pid。 


执行 成 功 时 ，ki1l1l() 会 返回 0。 只 要 有 信号 被 送出 ， 此 调用 就 会 被 视 为 成 功 。 执 行 失 
败 时 (没有 信号 被 送出 )， 此 调用 会 返回 -1 并 且 将 errno 设 定 为 下 面 的 其 中 一 个 值 ， 
EINVAL 

signo 指定 了 无 效 的 信号 。 
EPERM 

进行 调用 的 进程 的 权限 不 足以 将 一 个 信号 发 送 给 任何 所 请 求 的 进程 。 
ESRCH 


pid 所 指定 的 进程 或 进程 组 不 存在 ， 或 者 是 一 个 僵尸 进程 。 


权限 

为 了 发 壕 一 个 信号 给 男 一 个 进程 ， 发送 端 进 程 需 要 具备 适当 的 权限 。 一 个 具有 
CaAP_KILL 能 力 的 进程 (通常 为 root 所 拥有 ) 可 以 发 送 一 个 信号 给 任何 进程 。 若 不 有 具 
备 此 能 力 , 发 送 端 进程 的 有 效 或 真实 的 用 户 ID 必 须 等 于 接收 端 进程 的 真实 或 被 保存 的 用 
户 ID。 疝 而 言 之 ， 一 个 用 户 只 能 传送 一 个 信号 给 他 自己 的 一 个 进程 。 


二 所 


Unix 系统 替 SIGCONT 定 闵 了 一 个 异常 : 一 个 进程 可 以 发 送 此 信号 给 位 于 相同 
会 话 的 任何 其 他 进程 。 用 户 ID 不 需要 相符 。 





如 琳 signo 的 值 为 0 一 一 之 前 所 提 到 的 空 信号 , 则 此 调用 不 会 送出 信号 , 但 是 仍旧 会 
进行 错误 和 检查。 这 可 用 于 一 试 一 个 进程 是 否 具 有 适当 的 权限 , 能 够 将 信号 发 送 给 所 提供 
的 进程 或 进程 组 。 


人 
志 


了 LO 

沱 例 

下 面 的 例子 会 将 SIGHUP 发 送 给 pid 为 1722 的 进程 
int ret; 
ret = kill (tl722, SIGHUP); 
1 


Derror ("kilil"”)]; 
上 面 这 段 范例 程序 代码 与 下 面 的 Kili 实用 程序 的 调用 等 效 : 


Ss kill -HUP li22 


出 


若 想 检 查 我 们 是 否 有 权限 将 一 个 傅 号 发 送 给 1722， 但 是 不 要 实际 送出 任何 信号 ， 我 们 
可 以 这 么 做 ， 


int retlk; 
reC = kill (li22, D): 
if {Tet) 
; A* 我 们 的 权限 不 是 */ 


已 ] 忆 所 


i 我 们 县 有 权限 站 


A 


如 果 一 个 进程 旨 发 送 一 个 信号 给 它 自己 ，raise() 国 数 是 一 个 简单 的 方法 : 


证 


#include <Bignal.h> 
int raise (int signo),; 
raise (8igno),; 
等 效 于 下 面 的 调用 : 
kill (getpigd (}, signo}.; 


行 成 功 时 , 此 调用 会 返回 6; 执行 失败 时 , 则 返回 一 个 非 零 值 , 但 是 不 会 设 定 errno。 


给 整个 进程 组 传送 一 个 信号 
另 一 个 方便 的 国 数 可 让 你 轻易 地 将 一 个 信号 传送 给 指定 进程 组 中 的 所 有 进程 ,因此 对 进 
程 组 ID 取 负 值 以 及 使 用 Kxkillf) 也 被 视 为 太 复 杂 ， 
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#include <*signal.h> 


int killpg (int pgrp, int signo); 


此 调用 : 


killpg Ipgrp, signo}; 
等 效 于 下 面 的 调用 : 
K1L1L1 (-pgrp, signo}; 


即使 pgrp 的 值 为 0， 以 上 的 说 明 仍 为 真 ， 在 此 情况 下 ，ki1llpg () 会 将 信号 signo 
传送 给 进行 调用 的 进程 所 属 组 中 的 每 个 进程 。 


执行 威 功 时 ，Killpg() 会 返回 0; 执行 失败 时 ， 它 会 返回 -1 并 旦 将 errno 设 定 为 
下 面 的 其 中 一 个 值 : 


EINVAL 
signo 指定 了 无 获 的 信号。 
EPERM 
进行 调用 的 进程 的 权限 不 足以 将 一 个 信号 发 送 给 任何 所 请 求 的 进程 。 


ESRCH 


pgrp 所 指定 的 进程 组 并 不 存在 。 


可 重 入 性 


当 内 核 9| 发 了 一 个 信号 时 , 进程 可 能 正在 任意 地 方 执行 程序 代码 。 举 例 来 说 , 它 可 能 正 
企 进 行 一 个 重要 国运 晶 ， 如 末 被 中 断 ， 将 会 在 进程 中 留 下 不 一 致 的 状态 一 一 例如 ， 一 
个 数据 结构 只 被 更 新 了 一 半 , 或 者 一 项 计算 仅 完成 了 一 部 分 。 进 程 甚 至 可 能 正在 处 理 曙 


= 小 信号 5 


当 一 个 信号 被 引发 时 , 信号 处 理 程 序 无 法 知道 进程 正在 执行 什么 程序 代码 , 处 理 程序 可 
能 运行 在 任何 程序 代码 中 间 。 因 此 , 重点 在 于 , 你 的 进程 所 安装 的 任何 信号 处 理 程序 必 
须 十 分 小 心 它 有 所 执行 的 动作 以 及 它 所 触及 的 数据 ,信号 处 理 程序 不 应 读 假 设 当 进程 遭 中 
断 时 正在 做 什么 。 尤 其 是 当 它 们 在 修改 全 局 (也 就 是 共享 的 ) 数据 上 时， 必须 特别 诞 慎 小 
心 。 一般 向 言 ， 不 让 信号 处 理 程序 触及 全 局 数据 是 一 个 好 主意 , 然而 下 一 节 我 们 将 探讨 
一 个 暂时 阻挡 信号 递送 的 方法 ,因为 此 方法 让 信号 处 理 程序 与 进程 的 其 余部 分 所 共享 的 
数据 可 以 被 安全 地 操作 。 
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那么 系统 调用 以 及 其 他 链接 库 函 数 会 怎么 样 呢 ? 如 果 你 的 进程 正在 写 人 一 个 文件 或 正在 
本 置 内 存 , 但 是 信号 处 理 程序 所 写 和 的 是 相同 的 文件 或 也 在 调用 malloc {) , 会 怎么 样 
吧 。 或 者 ， 当 信号 被 递送 时 ， 如 果 你 的 进程 正在 调用 -一 个 使 用 静态 缓冲 区 的 函数 ， 例 如 


strsignal()， 叉 会 在 双 伞 蛇 ? 


有 些 函 数 显然 不 可 重信。 如 果 一 个 程序 正在 执行 一 个 不 可 重 入 的 函数 ， 此 时 内 核 引 发 了 
一 个 信和 号, 接着 信号 处 理 程序 也 在 调用 相同 的 不 可 重 入 函数 ， 于 是 混乱 随 之 而 来 。 一 个 
可 重 入 函数 reentrant function) 就 是 一 个 可 以 在 自己 内 部 调用 日 己 (或 者 在 相同 的 进 
程 中 并 行 地 从 另 一 个 线程 来 调用 自己 ) 的 函数 。 为 了 可 重信 ,一 函数 不 得 操作 静态 数 
所 ,只 能 操作 分 配 在 堆栈 上 的 数据 或 调用 者 所 提供 的 数据 , 而 且 不 得 调用 任何 不 可 重 入 
国 数 。 


保证 可 重 入 的 函数 
编写 一 个 信号 处 理 程序 时 , 你 必须 考虑 到 被 中 断 的 进程 可 能 位 于 不 可 重 入 函数 中 (或 者 
任何 其 他 地 方 )。 因 此 ， 信 号 处 理 程 序 只 能 使 用 可 重 入 的 函数 。 


各 种 标准 颁布 了 具有 信号 安全 性 的 国 数 一 一 岂 就 是 可 重 入 的 ， 因 此 可 以 安全 地 在 信和 己 
处 理 程序 中 使 用 。 其 中 最 值得 注意 的 是 POSIX.1-2003 与 Single UNIX Specification 所 
颁布 的 函数 , 在 所 有 兼容 的 平台 上 , 它们 保证 具有 信号 安全 性 。 表 9-2 列 出 了 这 些 国 数 。 
表 9-2: 保证 具有 信号 安全 性 的 可 重 人 的 函数 


abortl) accept!) 








acCcess({) 


aioao_error')} aio_returnt) aio_suspendl) 


alarmit) bindi) cfoqetispeed!) 


cfagetospeedtl) 


chdirt)} 


clock_gettimel!l) 


creatt) 
它 革 所 C le ( | 
_exit{) 
Ecntll(} 
fpathcont'()} 
ftruncatel() 


getglidt) 


cfsetispeedl) 
chmod!{) 
closet) 

Qupl() 
EXECVel) 
Fchmod() 
fdatasyncl) 
fstatl() 
getegidt) 


getgroupst) 


ctsetospeedt) 
Chown ( ) 

人 ES 
dupz1) 

Exitw) 
fchownl} 
fork') 
fsyne(y 
qeteuid{) 


getpeername!) 


如 


表 9-2: 保证 具有 信号 安全 性 的 可 重 入 的 函数 ( 续 表 ) 


getpgrp() 
getsockname() 
Killi() 
lseek!()} 
mkfifot) 
pauserl) 
Posix_trace_event') 
readt{) 
recvfromt() 
rmdirt{) 
sendi) 
setgidqdl) 
setsockopt1:) 
sigactiont() 
sigemptyset!() 
signall) 
sigprocmask'1) 
sigsuspendl) 
Socketpairl) 
sysconf't) 
Lcfiusht) 
tcsendbreakit) 
timel!()} 
timer_settimel) 
unamet{) 


waitl) 


getpidl) 
gqetsockopt {) 
link!()} 
lstatt{) 
opent{)} 
pipe{) 
pselect!() 
readlinkt) 
recvmsgt} 
Select ( ) 
sendmsgt{) 
setpgid')} 
setuldl) 
sigaddsett({) 
Sigqfillsetl) 
sigpausel) 
Siggqueuet) 
sleept) 
stat () 
tcdraint) 
tcgetattrt) 
tcsetattrl() 
timer getoverrunl} 
timest) 
unlink'!) 


waitpidl?} 
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getppidi')} 
getuidl) 
listent) 
mkdirt) 
pathconf'() 
pollil} 
raisel) 
recvl)} 
renamel) 
sem_post{) 
sendtol) 
setsid!()} 
shutdown () 
sigdelset() 
sigismember!) 
sigpending!() 
sigset |() 
socket ( ) 
syml ink!{) 
tcflow!) 
tcgetpgrpl) 
tcsetpgrpl() 
timer gettimerl) 
umask{) 
utimert) 


writer) 


尽管 还 有 更 多 具有 安全 性 的 函数 , 但 是 Linux 与 其 他 兼容 于 POSIX 的 系统 仅 保证 这 些 


国 数 征 可 重 入 的 。 
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一- 一 | 
言 己 集 
本 章 稍 后 我 们 将 看 到 几 个 需要 操作 一 组 信号 (信号 集 ) 的 函数 ,例如 被 进程 阻挡 的 一 组 
信和 吕 或 是 一 组 等 待 进程 处 理 的 信号 。 信 和 号 集 (signal ser) 国 数 可 用 于 管理 这 些 信 有 旦 集 ， 

#include <signal.h> 

int sigemptyset {gigset 七 *set); 

int sigfillgsget (gigsget t *get)}); 

int sigaddset (sigset t *set, int signo); 

int sigdelset {sigset _t *get, int signo); 

int sigiemember {const sigset t+ *set, int gigno); 
sigemptyset{) 用 于 初始 化 set 所 指定 的 信号 集 ， 以便 清空 它 (将 所 有 信和 号 排除 在 
信 己 案 之 外 )。sigfillset({) 用 于 初始 化 set 所 指定 的 信号 集 ， 以 便 填 满 它 (将 所 
有 信号 纳入 信号 集 )。 这 两 个 函数 都 会 返回 0。 进 一 步 使 用 信号 集 之 前 ， 你 应 该 对 信和 号 
集 调用 其 中 一 个 国 数 。 
sigaddset() 用 于 将 signo 加 入 set 所 指定 的 信号 集 , 而 sigaelset1() 用 于 从 
set 所 指定 的 信号 集中 移 除 signo。 执 行 成 功 时 ， 这 两 个 函数 都 会 返回 0， 发 生 错 误 
果 ， 则 会 返回 - 1 ， 在 此 情况 下 ，errno 会 被 设 定 为 错误 代码 EINVAL， 表 示 signo 
是 一 个 无 效 的 信号 标识 符 。 
如 条 signo 位 于 set 所 指定 的 信号 集中 ，s igismember 1) 会 返回 1 ， 如 果 不 是 ， 


会 返回 0; 如 果 发 生 错 误 , 则 返回 -1, 在 此 情况 下 , errno 同样 会 被 设 定 为 EINVAL， 
表示 signo 是 无 效 的 。 


其 他 信和 号 集 函 数 
前 面 所 提 到 的 都 是 经 过 POSIX 标准 化 的 国 数 ， 你 可 以 在 任何 现代 的 Unix 系统 上 找到 
它们 。 此 外 ，Linux 还 提供 以 下 非 标准 的 国 数 ; 


#define _GNU SOURCE 
#define <signal.h» 


int sigisemptyset (gigset 七 *sget); 
int sigorset (sigset 七 *dest, sigset 七 *left, sigset 七 *right),; 


int sigandseet (sigset t *dest, sigset 七 *]left, sigaset _t *right); 
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如 果 set 所 指定 的 信号 集 是 空 的 , 则 sigisemptyset () 会 返回 1， 否则 会 返回 0。 


sigqorset () 会 将 信号 集 left 与 right 的 并 集 (二 元 OR 运算 ) 拉 入 dest。 
sigandset () 会 将 信号 集 left 与 right 的 交集 (二 元 AND 运算 ) 摆 人 dest。 执 
行 成 功 时 ， 这 两 个 函数 都 会 返回 0;， 发 生 错 误 时 ， 则 会 返回 -1 并 且 将 errno 设 定 为 


EINVAL, 


尽管 这 些 函 数 都 很 有 用 ， 但 是 想 要 与 POSIX 完全 兼容 的 程序 应 该 避免 使 用 这 些 函 数 。 


和 一 | 
阻挡 信和 号 
稍 早 , 我 们 曾 讨论 过 可 重信 性 以 及 在 任何 时 候 异 步 执行 信号 处 理 程序 所 引发 的 问题 。 我 
们 已 探讨 了 不 可 以 在 信号 处 理 程序 中 调用 的 函数 ， 因 为 它们 本 身 就 不 是 可 重 和 的， 


但 如 果 你 的 程序 需要 认 一 个 信号 处 理 程序 与 程序 中 其 他 部 分 共 们 数据 ,该 怎么 做 ?如 有 
你 的 程序 中 正在 执行 的 部 分 不 想 要 遇 到 任何 的 中 断 , 包括 来 自信 号 处 理 程序 的 , 该 怎么 
做 ? 我 们 将 以 上 这 些 部 分 称 为 程序 的 临界 区 (critical region)， 而 且 我 们 会 通过 师 时 中 
止 信 号 的 递送 来 保护 它们 一 一 我 们 会 说 信号 遭 到 了 阻挡 (blocked)。 任 何 信号 只 要 遵 
到 阻挡 就 不 会 被 处 理 ， 除 非 它 们 已 不 再 遭 到 阻挡 。 一 个 进程 可 以 阻挡 任何 数量 的 信和 与 
遭 到 进程 阻挡 的 一 组 信号 称 为 信号 掩 码 (signal mask)。 


POSIX 定义 了 一 一 而且 Linux 实现 了 一 一 一 个 函数 ， 可 用 于 管理 进程 的 信号 掩 码 : 


#include <sgignal.hy> 


int sigprocmask (int how, 
conet eigaeet tt *set, 
sigset _t #*ol]ldset),; 


sigprocmask() 的 行为 取决 于 how 的 值 ， 此 值 可 以 是 下 面 其 中 一 个 标志 


SIG_ SETMASK 
将 进行 调用 的 进程 的 信和 号 掩 反 变更 为 set。 

SIG_BLOCRK 
将 set 中 的 信号 加 入 进行 调用 的 进程 的 信号 掩 码 。 换 言 之 ,信号 掩 码 会 变更 为 当 
前 掩 码 与 set 的 并 集 (二 元 OR 运算 )。 

SIG_UNBLOCK 
将 set 中 的 信号 从 进行 调用 的 进程 的 信号 掩 码 中 移 除 。 换 言 之 ,信号 掩 码 会 变更 
为 当前 掩 码 与 set 的 取 反 (二 元 NOT 运算 ) 的 交集 (二 元 AND 运算 )。 对 一 个 
未 受阻 挡 的 信号 进行 unblock (上 牙 通 ) 操作 是 不 符合 规定 的 。 


Cr 
者 
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如 果 olaset 的 值 不 是 NULL， 则 此 函数 会 将 先前 的 信号 集 放 入 olqdset。 


如 果 set 的 值 为 NULL， 则 此 函数 会 忽略 how， 而 且 不 会 变更 信号 掩 码 ， 但 十 会 将 信 
号 掩 码 放 和 人 olaset。 换 言 之 ， 将 null 值 传 进 set 可 作为 取得 当前 Eee 
执行 成 功 时 ， 此 调用 会 返回 0 ， 执 行 失 败 时 ， 它 会 返回 -1 并 且 会 将 errno 设 定 为 
EINVAL {表示 how 是 无 效 的 ) 或 EFAULT (表示 set 或 oldset 是 一 个 无 效 的 指 
针 让 。 

阻挡 SIGKIDL 或 SIGSTOP 是 不 被 元 许 的 。 下 起 图 将 这 两 个 信号 其 中 之 -加 人 信和 号 Ey, 
码 ， 则 sigprocmask({) 会 默默 子 以 忽略 ， 


取得 未 决 信号 
当 内 核 引 发 了 一 个 遭 阻 挡 的 信号 时 ， 它 不 会 被 递送 。 我 们 称 它 为 未 决 (pending) 信号 。 
当 一 个 未 决 信号 不 再 被 阻挡 时 ， 内 核 可 以 传递 它 ， 让 进程 能 够 加 以 处 理 。 
POSIX 定义 了 一 个 函数 ， 用 于 取得 一 组 未 决 信号 
#include <signal.h> 
int sigpending (sigset t *get); 


执行 成 功 了 时 ，s igpending1|) 会 把 一 组 未 决 信号 - 放 入 set 并 且 返 回 0， 执行 失败 时 ， 
此 调用 会 返回 -1 并 和 且 将 errno 设 定 为 EFAULT (表示 set 是 一 个 无 北 的 指针 )。 


等 待 一 组 信号 
第 三 个 POSIX 所 定义 的 函数 让 一 个 进程 得 以 临时 变更 它 的 信号 掩 码 ， 然后 等 待 一 个 信 
号 被 引发 ， 直 到 进程 终止 或 是 该 信号 被 进程 所 处 理 ; 
#include <signal.h> 
int sigsuspend (const sigsget 七 *set); 
如 有 果 一 个 信号 会 终止 进程 , 则 sigsuspend() 不 会 返回 。 > 个 信号 被 引发 与 处 理 ， 


则 sigsuspend{}) 会 在 从 傍 号 处 理 程序 返回 之 后 返回 -1， 并 且 将 errno 设 定 为 
EINTR。 如 果 set 是 一 个 无 效 的 指针 ， 则 errno 会 被 设 We EFAULDT. 


sigsuspenqd() 常用 于 取得 程序 执行 临界 区 期 间 已 经 到 达 而 且 被 阻挡 的 信和 号。 进程 普 
2 sigprocmask () 来 阻挡 一 组 信号 并 将 旧 的 掩 码 存 人 oldaset。 离 开 临 界 区 
， 进 程 接 着 会 调用 sigsuspend()， 将 oldset 提供 给 set。 
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高 级 信号 管理 

我 们 在 本 章 一 开始 探讨 了 非常 基本 的 signal () 函数 ,因为 它 是 标准 C 链接 库 的 一 部 
分 ， 因 此 它 能 够 反映 它 所 运行 的 操作 系统 上 关于 操作 系统 能 力 的 最 小 假设 (minimal 
assumption)， 它 对 信和 号 管理 所 提供 的 能 力 只 不 过 是 最 小 公分 母 (lowest common 
denominator) 。 奶 一 种 选择 是 经 POSIX 标准 化 的 sigacticon() 系统 调用 , 它 所 提供 
的 信号 管理 能 力 束 大 得 多 了 。 尤其 是 当 你 的 处 理 程序 运行 的 上 时候, 你 可 以 使 用 它 来 阻挡 
指定 信号 的 接收 ,以 及 当 一 个 信号 被 引发 的 时 候 , 你 可 以 使 用 它 来 取得 关于 系统 与 进程 
状态 的 广 沁 数据 : 


#1incliude gignal.h> 


int sigaction (int signo, 
Const struct sigaction *Aact., 
atruct sigaction *oldact)}),; 


sigaction() 可 用 于 变更 signo 所 指定 的 信号 行为 ， 它 可 以 是 任何 值 (SIGKILL 
与 STIGSTOP 除外 )。 如 果 act 的 值 不 是 NULL, 则 系统 调用 会 变更 act 所 指定 信和 号 的 
当前 行为 。 如 果 olaact 的 值 不 是 NULL， 则 此 调用 会 存储 指定 信号 先前 的 行为 (或 
是 当前 的 行为 ， 如 果 act 的 值 是 NULL 的 话 )。 


sigaction 结构 让 你 可 以 对 信号 进行 细 粒 度 的 控制 (fine-grained control) 。 头 文件 
<sys/signal.h> (从 <signal.H> 引用) 定义 了 下 面 的 结构 ， 
Etruct sigactionm 1{ 
void (*ga handler)} (int)}).; /:* gignal handler or action */ 
void (*sa_ Sigaction) (int, siginfo t *, void *);} 
sigget 七 sa magsk; /* Bignals to block */ 
int sa flage; f 二 flags */ 
void (*esa reastorer) (void); /* obesolete and non-POSIX */ 
} 


sa_handler 和 字段 用 于 指示 收 到 信号 时 所 要 采取 的 行动 。 如 同 signal {() ， 此 字段 的 
值 可 以 是 SIG_DFL (代表 默认 动作 )、sIG_IGN (用 于 指示 内 核 忽 略 进程 的 信号 ) 或 
是 一 个 指 阿 一 个 信号 处 理 国 数 的 指针 。 此 函 数 的 原型 如 同 signal () 所 安装 的 一 个 信 
号 处 理 程序 ， 


VOid my_handler (int signo}): 


如 坟 SA_SIGINFO 被 设 定 在 sa_flags 中 ， 则 会 使 用 sa_sigaction (而 非 
sa_handler) 来 指示 信号 处 理 函 数 。 此 函数 的 原型 有 些微 不 同 : 


voiqd my_handler tint signo, siginfo 七 *si, woid *#*Lcontext}): 
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此 函数 的 第 一 个 参数 是 信号 编号 ， 第 二 个 参数 是 一 个 siginfo_t 结构 ， 第 三 个 参数 
是 一 个 ucontext_t 结构 (转型 成 一 个 void 指针 )。 此 国 数 没 有 返回 值 .siginto_f 
灰 信 号 处 理 程 序 提供 了 大 量 的 信息 ， en py 


注意 ， 在 某 些 机 器 架构 (以 及 可 能 的 其 他 Unix 系统 ) ,Sa_handler 与 
sa_sigaction 位 于 同一 个 union (联合 数据 结构 ) 中 ， 不 应 该 同时 对 这 两 个 字段 
赋值 。 


sa_mask 字段 提供 了 一 组 信和 号， 系统 应 该 在 信号 处 理 程 序 执行 期 间 阻 描 这 组 信号 。 这 
让 程序 设计 者 得 以 适当 地 保护 多 个 信和 号 处 理 程 序 的 可 重 和 性。 当前 正在 被 处 理 的 信号 也 
会 被 阻挡 ,除非 SX__NODEFER 标志 也 设 定 在 sa_flags 字段 中 。 你 无 法 阻挡 SIGKILL 
或 SIGSTOP， 这 两 个 信号 车 出 现在 sa_mask 中 ， 此 调用 将 默默 地 子 以 忽略 。 


sa_flags 字段 是 零 个 、 一 个 或 多 个 标志 的 位 掩 码 ， 可 用 于 变更 signo 所 指定 信号 
的 处 理 方式 。 我们 已 经 看 过 了 SA_SIGINFO 与 SA_NODEFER 等 标志 。sa_flags 字 
段 的 其 他 值 还 包括 : 


SA NOCLDSTOP 
如 果 signoe 的 值 为 SIGCHLD， 则 此 标志 用 于 指示 系统 不 皮 在 一 个 子 进程 停止 到 
继续 时 送出 通知 。 

SA_NOCLDWAIT 
如 果 signo 的 值 为 SISGCHLD, 则 此 标志 用 于 启用 自动 子 进程 回收 功能 (automatic 
child reaping): de 而 且 父 进程 不 需要 (也 不 


会 ) 对 它们 调用 wait i 见 第 五 章 对 子 进 程 、 从 忆 进程 以 及 wait () 的 详细 
说 明 。 
SA NOMASK 


这 是 一 个 已 废弃 的 非 POSIX 标志 ， 等 效 于 SA_NODEFER (本 证 稍 早 讨 论 过 )。 你 

可 以 使 用 SA_NODEFER 来 取代 此 标志 ,但 是 你 会 在 较 旧 的 程序 代码 中 看 到 此 标志 。 
Sa ONESHOQT 

这 是 一 个 已 废弃 的 非 POSIX 标志 ， 等 效 于 SA_RESETHAND 〈 舟 后 会 讨论 )。 你 

可 以 使 用 SA_RESETHAND 来 取代 此 标志 ， 但 是 你 会 在 较 旧 的 程序 代码 中 看 到 此 
SA ONSTACK 

此 标志 用 于 指示 系统 在 一 个 替代 的 信号 堆栈 in signal stack) 上 一 一 可 

供 目 sigaltstack1!) 信号 


的 堆栈 , 则 会 使 用 默认 的 堆栈 一 一 也 束 征 和 并 未 提 供 此 标志 时 一 
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样 。 桂 代 的 信号 堆栈 很 少 被 用 到 ， 尽 管 它们 可 以 被 用 在 某 些 线程 堆栈 较 小 的 
pthread 应 用 程序 |， 以 避免 菜 些 信 号 处 理 程序 把 堆栈 用 光 。 本 书 并 不 会 进 一 步 探 
讨 sigaltstacKk() 。 


SA_ RESTART 


此 标志 会 使 得 遭 信 号 中 断 的 系统 调用 以 BSD 的 形式 重新 局 动 。 


SA_RESETHAND 


此 标志 会 启用 “one-shot”( 只 做 一 次 ) 模式 。 从 信号 处 理 程序 返回 , 读 信 号 的 
行为 会 被 重 置 为 默认 值 。 


sa_restorer 字段 已 废弃 ， 而 且 不 再 用 于 Linux。 反 正 它 不 是 POSIX 的 一 部 分 ， 不 
它 不 存在 ， 不 要 跟 它 打交道 


执行 成 功 时 , sigaction(}) 会 返回 0; 执行 失败 时 , 此 调用 会 返回 -1 并 且 将 errno 
设 定 为 下 面 的 其 中 一 个 错误 代码 ; 


EFALLT 
act 或 oldact 是 一 个 无 效 的 指针 。 


EINMNYVAL 

signo 是 一 个 无 效 的 信号 ，SIGKILL 或 SIGSTOP。 
siginfo_t 结构 
siginfo t+ 结构 也 定 人 于 <sys/signal.h>， 如 下 所 未 : 


typedef etruct siginfo 七 { 


int 8s8i signo:; :* gignal number */ 

int si_ errno} i/* errno value */ 

int sai code; /* signal code */ 

Pid 七 si pid; /:* gending process's PID */ 
ia t si uid; /* Sending Procesas'g real UID */ 
int si status; /# exit value or gignal */ 


Glock t si utime; /* usger time congsumed */ 
clock t si estime; /* gvygagtem time consumed */ 
aigval t si wvalue; /* gignal payload value */ 


int si_ int; /* POSIX.1b signal */ 

void *si ptr;} /* POSIX.1b signal */ 

void *gi addr; /* memory location that caused fault */ 
int si band; :* band event */ 


int si fa; /:* file desgcriptor */ 
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此 结构 包含 了 许多 要 传递 给 信号 处 理 程序 的 信息 (如 果 你 使 用 的 是 sa_sigaction 而 
不 是 sa_sighanaler)。 以 现代 计算 机 技术 来 看 ， 许 多 人 认为 使 用 Unix 信号 模型 来 
进行 IPC 是 一 个 相当 可 怕 的 方法 。 或 许 问题 在 于 , 当 这 些 人 应 该 以 SA_SIGINFO 标志 
来 使 用 sigaction{) 的 时 候 ， 他 们 还 是 坚持 使 用 signal!)。siginfo tc 结构 为 
我 们 开启 了 一 扁 门 ， 让 我 们 得 以 在 信号 之 外 编写 出 更 多 的 功能 。 


此 结构 中 还 有 许多 值得 注意 的 数据 , 包括 送出 信号 的 进程 的 相关 信息 , 信号 起 因 的 相关 
信息 。 下 面 是 这 些 字段 的 详细 描述 : 


si_s1lgno 
信号 的 编号 。 在 你 的 信号 处 理 程序 中 , 第 一 个 参数 所 提供 的 也 是 这 个 信息 (因此 可 
避免 指 针 解 除 引 用 )。 
si_errno 
如 全 为 非 零 值 ， 则 错误 代码 与 此 信号 相关 联 。 此 字段 适用 于 所 有 信和 忆 。 
Si_code 
说 明 进 程 为 何 收 到 信号 以 及 从 何 处 收 到 (例如 从 kil1())。 下 一 节 我 们 将 探讨 它 
的 可 能 值 。 此 字段 适用 于 所 有 信号。 
si_pid 
适用 于 SIGCHLD， 代 表 被 终止 进程 的 PID。 
sli_uiqd 
适用 于 SIGCHLD， 代 表 被 终止 进程 拥有 者 的 UID。 
si_status 
适用 于 SIGCHLD， 代 表 被 终止 进程 的 结束 状态 。 
sl Utime 
适用 于 SIGCHLD， 代 表 被 终止 进程 所 耗 用 的 用 户 时 间 。 
sli_stime 
运用 于 SIGCHLD， 代 表 被 终止 进程 所 耗 用 的 系统 时 间 。 
sil_value 
si_int 与 si_ptr 的 union (联合 数据 结构 )。 
Sl_ 1nt 
适用 于 由 sigqueue () (参见 “以 payload 送出 信号 ”一 节 ) 所 传送 的 信号， 所 
提供 的 payload 是 一 个 整数 。 
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Sl_ptr 
适用 于 由 sigqueue() (参见 “以 payload 送出 信号 ”一 节 ) 所 传送 的 信号 ， 所 
提供 的 payload 是 一 个 void 指针 。 
3i_addr 
适用 于 SIGBUS、SIGFPE、SIGILL，SIGSEGYV 以 及 SIGTRAP, 这 个 void 指 
针 包 含 了 导致 错误 的 地 址 。 例 如 ， 就 SITGSEGV 的 情况 而 言 ， 此 字段 包含 了 发 生 
内 存 访问 错误 的 地 址 (因此 通常 为 NULL! )。 
si_band 
适用 于 SIGPOLL， 被 列 在 si_fa 中 的 文件 摘 述 符 的 out-of-band ( 带 外 或 紧急 ) 
与 priority (优先 级 ) 信息 。 
sli_fd 
适用 于 SIGPOLL ， 已 完成 操作 的 文件 的 文件 摘 述 符 。 
si_value、si_int 以 及 si_ptr 是 相当 复杂 的 议题 ， 因 为 一 个 进程 可 以 通过 它们 
给 另 一 个 进程 传递 任意 数据 。 因此 , 你 可 以 通过 它们 来 传送 徊 单果 整数 或 是 传送 指向 一 
个 数据 结构 的 指针 (注意 ， 如果 进程 之 间 并 未 共享 同一 个 地 址 空间 ， 则 指针 的 帮助 也 不 
大 )。 “以 payload 送出 信号 ”一 节 将 会 探讨 这 些 字 段 。 


POSIX 只 保证 最 前 面 三 个 字段 适用 于 所 有 傅 号 ,所 以 你 只 应 该 在 处 理 适 用 信号 时 才 去 访 
加 其 他 字段 。 例 如 ， 只 有 在 信号 是 SIGPOLL 时 ， 你 才 应 该 访问 si_fa 字段 。 


si_code 的 育 妙 世界 
si_code 字段 用 于 指示 信号 的 起 因 。 就 用 户 所 传送 的 信号 而 言 ， 此 字段 用 于 指示 如 何 
传送 信号 。 就 内 核 所 传送 的 信号 而 言 ， 此 字段 用 于 指示 为 何 传送 信号。 
下 面 的 si_coae 字段 值 适 用 于 任何 信和 号, 用 于 指示 如 何 / 为何 (how/why) 传送 信号: 
SI ASYNCIO 

之 所 以 传送 信号 是 因为 已 完成 异步 1O (参见 第 五 章 )。 
ST KERNEL 

言 号 由 内 核 引 发 。 
SI MESGO 

之 所 以 传送 信号 是 因为 有 一 个 POSIX 信息 队列 (本 书 并 未 说 明 ) 的 状态 发 生 了 变化 。 
Sl MUEUE 

信号 由 sigqueue() 传送 (参见 下 一 节 )。 
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SI_TIMER 
之 所 以 传送 信号 是 因为 有 一 个 POSIX 定时 器 到 期 (参见 第 十 章 )。 

SI_TRILL 
此 信号 由 kill() 或 tgkil1() 传 送 。 这 些 系 统 调用 被 线程 所 执行 的 链接 库 使 
用 ， 但 是 本 书 并 未 说 明 。 


SI_SIGIO 
之 所 以 传送 信号 是 因为 SIGIO 被 排 人 队列 。 
SI_USER 


此 信号 由 kill() 或 raise{) 传送 。 
下 面 的 si_code 字段 值 仅 适用 于 SIGBUS， 用 于 指示 所 发 生 的 是 何 种 硬件 错误 : 


US._ADRALNB 
进程 遇 到 了 一 个 对 章 错误 (对齐 的 相关 细 市 可 参考 第 八 章 )。 
BUS_ADRERR 


进程 访问 了 一 个 无 效 的 物理 地 址 。 
BUS_OBJERR 
进程 引起 了 其 他 形式 的 醒 件 错误 。 
就 SIGCHLD 而 言 ， 下 面 各 值 用 于 指出 是 哪个 子 进 程 传送 信和 号 给 它 的 父 进程 : 
CLD_CONTINUED 
子 进程 被 停止 但 是 已 经 恢复 。 
CLD_DUMPED 
子 进 程 被 不 正常 终止 。 
CLD_ EXITED 
子 进程 由 exit () 正常 终止 。 
CLD_KILLED 
子 进程 被 杀 掉 了 。 
CLD_STOPPED 
子 进程 被 停止 了 。 
CLD_TRAPPED 
子 进程 过 到 了 一 个 陷阱 。 
下 面 的 值 仅 适用 于 SIGFPE， 用 于 说 明 所 产生 的 是 何 种 算术 错误 : 
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FPE FLTDIV 

进程 所 进行 的 浮 点 运算 产生 了 除 以 零 的 结果 ， 
FPE FLTOVF 

进程 所 进行 的 浮 点 运算 产生 了 上 溢出 (overflow) 的 结果 ，。 
FPE_FLTINY 


进程 进行 了 一 项 无 效 的 浮 点 运算 。 
FPE_FLTRES 

进程 所 进行 的 浮 点 运算 产生 了 不 精确 或 无 效 的 结 朵 。 
FPE_FLTSUB 

进程 所 进行 的 浮 点 运算 产生 了 一 个 超出 范围 的 下 标 (out-of-range subscript)。 
FPE_FLUTIUND 

进程 所 进行 的 浮 点 运算 产生 了 下 溢出 (underflow) 的 结果 。 
FPE_INTDIV 

进程 所 进行 的 整数 运算 产生 了 除 以 等 的 结果 。 
FPE_INTOVEF 

进程 所 进行 的 整数 运算 产生 了 上 溢出 的 结 术 。 
下 面 的 s i _ code 字段 值 仅 适用 于 SIGILL， 用 于 说 明 非 法 指令 执行 的 性 质 ， 
TII ILLADR 

进程 试图 进入 一 个 非法 的 寻 址 模式 。 
ILLDL LLLOPC 

进程 试图 执行 一 个 非法 的 操作 码 (opcode)。 
LLL ILLOPN 

进程 试图 执行 一 个 非法 的 操作 数 (operand)。 
ILL FRVOPC 

进程 试图 执行 一 个 需要 特权 的 操作 向 。 
ILL_PRVREG 

进程 试图 执行 一 个 需要 特权 的 寄存 客 。 
TLL,_LLLUTRP 

进程 试图 进入 一 个 非法 的 陷阱 。 
就 以 上 这 些 值 而 言 ，si_addr 会 指 同 发 生 错 误 的 地 址 。 


就 SIGPOLL 而 言 ， 下 面 的 值 用 于 指出 信号 是 何 种 WO 事件 产生 的 : 
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POLL_ERR 
发 生 了 一 个 IO 错误 。 
POLIL_HUP 
设备 被 挂 断 或 者 socket 断 线 。 
POLL_IN 
文件 有 数据 可 供 读 取 。 
POLL_MSG 
有 信息 可 用 。 
POLL_OUT 
文件 可 供 写 人 。 
POLL_PRI 


文件 有 高 优先 级 的 数据 可 供 读 取 。 
下 面 的 值 适 用 于 SIGSEGVY， 用 于 描述 两 种 无 效 的 内 存 访问 : 
SEGV_ACCERR 
进程 以 无 效 的 方式 访问 一 个 有 效 的 内 存 区 域 一 一 也 就 是 说 , 进程 违反 了 内 存 访问 
权限 。 
SEGY_ MAPERR 
进程 访问 了 一 个 无 效 的 内 存 区 域 。 
无 论 是 以 上 何 种 情况 ，si_adqdr 都 会 包含 发 生 错 误 的 地 址 。 
就 SIGTRAP 而 言 ， 下 面 的 si_code 字段 值 可 用 于 指出 所 过 到 的 是 何 种 陷阱 ; 
TRAP_BREPT : 
进程 遇 到 了 一 个 断 点 。 
TRAP_ TRACE 
进程 遇 到 了 一 个 追踪 陷阱 。 
注意 ，s i_code 是 一 个 值 字段 (value field) 而 不 是 一 个 位 字段 {bit field) 。 
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bb === 

以 payload 送出 信号 
正如 我 们 在 前 一 节 所 看 到 的 , 信号 处 理 程序 的 注册 需要 用 到 SA_SIGINFO 标志 以 及 传 
递 一 个 siginfo_t 参数 。siginfo_t 结构 包含 了 一 个 名 为 si_value 的 字段 ， 这 
是 一 个 可 选 的 payload (有 效 载 荷 ) (译注 1) ， 会 从 信号 产生 者 递送 至 信号 接收 者 。 
sigqueue() 国 数 (定义 自 POSIX) 让 一 个 进程 得 以 使 用 此 payload 来 传送 信号 : 

#include <signal.h> 

int sigqmueue (pia 七 pid, 


int signo, 
const union eigval walue)}; 


sigqueue() 的 行为 业 似 于 Ki11(0)。 执 行 成 功 时 ，signo 所 指定 的 信号 会 被 排 人 由 
Pia 所 指定 的 进程 或 进程 组 的 队列 ,而且 此 国 数 会 返回 0。 此 信号 的 payload 由 value 
来 指定 ，value 是 一 个 整数 与 一 个 void 指针 所 构成 的 union: 


unicon sigval 1 
int Sival ints 
volid *aival Ptr 
}; 


执行 失败 时 ， 此 调用 会 返回 -1 并 且 将 errno 设 定 为 下 面 的 其 中 一 个 值 : 
ELINVAL 
signo 指定 了 无 效 的 信号 。 
EPERM 
进行 调用 的 进程 的 权限 不 足以 将 信号 送 往 任何 所 请 求 的 进程 .传送 一 个 信号 所 请 求 
的 权限 如 同 killlt) 的 (参见 “传送 一 个 信号 ”一 节 )。 
ESRCH 
pid 所 指定 的 进程 或 进程 组 不 存在 ， 或 者 是 一 个 僵尸 进 程 。 
如 同 kill()， 测 试 权限 的 方法 就 是 将 空 字符 串 (0) 传人 signeo。 


汇 例 
下 面 所 举 的 例子 会 传送 SIGUSR2 信和 号 给 piad 为 1722 的 进程 ， 此 信号 有 一 个 整数 的 
payload ， 所 要 传送 的 是 404 这 个 值 : 


译注 1: payload (有 葡 载 苛 ) 原 指 火 前 所 载 送 的 弹头 【或 人 造 卫星 )， 后 来 在 数据 通信 中 被 引申 
为 封包 中 不 售 标 藉 ， 只 包含 实际 要 传送 给 接收 者 的 数据 。 
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Sigoval walues; 
int ret.; 
value,.sival_int = 404; 
ret siaggqueue (1722, SIGUSR2, value):; 
ift {ret) 


PEerror ("slgdqueue"); 


如 果 进 程 1722 对 SIGUSR2 的 处 理 使 用 了 SA_SIGINFOG 处 理 程序 , 则 它 将 发 现 signo 
被 设 定 为 SIGUSR2，si->si_int 被 设 定 为 404， 以 下 si->si_cogde 被 设 定 为 
SI_OUEUE ， 


结束 语 

许多 Unix 程序 设计 者 并 不 看 好 信号 。 就 内 棱 与 用 户 之 加 的 通信 而 言 ， 它 是 一 个 老 旧 过 
时 的 机 制 ， 最 多 只 不 过 是 IPC 的 原始 形式 。 在 多 线程 程序 与 事件 循环 的 世界 中 ， 通 第 
不 适合 使 用 信号 。 


然而 ,无论 好 坏 ， 我 们 仍 需 要 它们 。 信 与 十 从 内 核 接 收 许多 通知 (例如 非法 操作 码 执 行 
的 通知 ) 的 唯一 方法 。 此 外 ， 信 号 是 Unix (因而 也 是 Linux) 终止 进程 以 及 管理 父 / 
子 进程 关系 的 方法 。 因 此 ， 我 们 不 得 不 使 用 信和 号 。 


信号 不 馈 看 好 有 的 主要 原因 在 于 ,很 难 让 所 编写 出 的 信号 处 理 程序 能 够 适当 地 洲 开 可 重 入 
(reentrancy) 的 回 题 。 然 而 ,如果 你 能 够 让 处 理 程序 保持 简单 ,而且 只 使 用 表 9-2 所 列 
的 畏 数 〈 如 要 你 需要 用 到 任何 图 数 的 话 )， 则 它们 应 该 是 安全 的 。 


另 一 个 问题 ,就 信号 的 管理 而 言 , 许多 程序 设计 者 仍旧 使 用 signal() 与 kill() 而 
不 使 用 sigaction() 与 sigqueuel)。 如 最 后 两 市 所 示 ， 使 用 SA_SIGINFO 形式 
的 信号 处 理 程序 时 会 大 幅 改 善信 号 的 能 力 和 表现 。 虽 然 我 自己 不 是 信号 的 爱 用 者 一 一 我 
斋 望 看 到 信和 叶 机 制 被 基于 文件 摘 述 符 的 可 轮 询 机 制 所 取代 ， 事 实 上 Linux 内 核 未 来 的 
成 本 将 此 事 纳 入 了 和 壹 虑 但 是 为 了 让 日 子 好 过 一 点 ， 我 会 避 开 它们 的 缺点 并 使 用 
Linux | 的 高 级 接口 。 
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在 现代 操作 系统 中 ,时间 (time) 可 用 于 各 种 目的 ， 许 多 程序 都 需要 记录 时 间 。 内 核 会 
以 三 种 方式 测量 流下 的 时 间 ; 


炙 纳 打 生 {或 真 笑 时 辣 ) 
这 是 真实 世界 中 的 实际 时 间 和 日 期 一 一 也 就 是 人 们 可 以 在 壁 钟 上 看 到 的 时 间 。 进 
程 会 在 与 用 户 交 互 或 灰 事 件 记 录 时 间 惟 时 使 用 壁 钟 时 间 (wall 1ime), 

进 姑 肝 则 0 
这 就 是 一 个 进程 在 用 户 空间 程序 代码 中 所 花 的 时 间或 是 内 核 替 进程 工作 所 花 的 时 间 。 
进程 之 所 以 要 在 乎 这 种 形式 的 时 间 , 主要 是 为 了 概要 分 析 (profiling) (译注 1) 与 统 
计 (statistie) 的 目的 一 一 例如， 测量 特定 运算 要 花 多 少时 间 完 成 。 壁 钟 时 间 会 令 
人 误解 测量 进程 的 行为 ， 因 为 由 于 Linux 多 任务 的 本 质 ， 一 个 运算 的 进程 时 间 会 远 
低 于 壁 钟 时 间 。-- 个 进程 还 会 将 大 量 的 时 间 花 在 等 待 WO (特别 是 键盘 的 输入 )】 上 。 

举 关 时间 
此 时 间 来 源 会 严格 线性 递增 (strictly linearly increasing)。 多 数 操作 系统 ， 包 括 
Linux， 会 使 用 系统 正常 运行 时 间 (system uptime， 从 开机 起 算 系统 已 经 运作 了 多 
长 上 时间)。 壁 钟 时 间 有 可 能 会 变动 一 一 例如 因为 用 户 会 设 定 它 ， 而 且 系 统 会 因 时 
间 侦 移 而 持续 调整 它 ; 此 外 , 例如 闽 秒 (leap second) 也 会 让 壁 钟 时 间 恋 得 不 精确 。 
另 一 方面 ，system uptime 是 时 间 的 一 个 县 确定 性 与 不 变性 的 表示 法 。 一 个 单调 肝 
问 来源 (monotonic time source) 的 重要 方面 不 在 于 当前 值 ， 而 在 于 保证 时 间 米 源 
是 严 格 线性 递增 的 ， 因 而 可 用 于 计算 两 个 样本 的 时 间 差 。 


四 此， 单 阅 时 间 适 合用 于 计算 相对 时 间 ， 而 壁 钟 时 间 适 合用 来 测量 绝对 时 间 。 


译 汪 1: 所 请 的 “概要 分 析 ”， 是 指 根据 程序 的 行为 表现 对 程序 作出 分 析 。 
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这 三 种 测量 时 间 的 方法 可 以 被 表示 成 如 下 两 种 形式 之 一 : 
相 守 肝 间 
这 是 一 个 相对 于 某 个 基准 点 (例如 当前 瞬间 ) 的 值 : 如 5 seconds from now (从 
现在 起 S 秒 后 ) 或 是 10 minutes ago (10 分 钟 前 )。 
编 寻 有 时间 
不 使 用 任何 基 淮 点 来 表示 时 间 : 如 noon on 25 March 1968 (在 1968 年 3 月 25 日 
的 中 午 )。 
时 间 的 相对 及 绝对 形式 都 会 被 用 到 。 一 个 进程 可 能 需要 在 500 晶 秒 取消 一 个 请 求 、 每 
秒 刷 新 屏幕 60 次 或 者 注意 到 自从 一 个 运算 开始 已 经 过 去 7 种 了 。 以 上 这 些 都 需要 进行 
相对 时 间 的 计算 。 相 反 ， 一 个 日 历 应 用 程序 会 将 用 户 的 Toga Party (译注 2) 日 期 记录 
为 8 February (2 月 8 日)， 当 一 个 文件 被 创建 时 ， 文 件 系 统 将 会 写 出 完整 的 日 期 与 时 
问 《而 非 “5 秒 之 前 ”)， 并 且 用 户 的 时 钟 会 以 格 里 高 里 历法 (Gregorian date) 显示 时 
团 ， 而 不 会 以 目 系 统 5| 寻 后 所 经 过 的 种 数 。 


Unix 系统 将 绝对 时 间 表 示 成 目 纪元 《被 定义 为 1970 年 1 月 1 日 00:00:00 UTC) 后 所 
经 过 的 种 数 。UTC (Universal Time Coordinated , 协调 世界 时 } 大 致 为 GMT (Greenwich 
Mean Time， 格 林 威 治标 准时 间 ) 或 Zulu ( 祖 鲁 ) 时 间 。 说 来 奇怪 ， 这 意味 着 在 Unix 
中 ， 即 使 古 绝 对 时 则 ， 本质 上 还 是 相对 时 间 。 为 了 存储 “ 自 纪元 后 的 秒 数 ”"，Unix 引进 
了 一 个 特殊 的 数据 类 型 ， 下 一 布 我 们 将 看 到 。 


操作 系统 会 由 软件 时 钟 (sofrware clock) 一 一 内核 以 软件 所 维护 的 上 时钟 一 一 来 追踪 时 
同 的 进展 。 内 核 会 初始 化 一 个 周期 性 定时 兽 ， 就 是 所 谓 的 系统 定时 器 (sysiem timer)， 
它 会 以 特定 的 频率 发 出 中 断 事件 。 当 一 个 定时 器 的 时 间 间 隔 结束 , 内 核 就 会 替 已 经 过 去 
的 时 间 递 增 一 个 单元 ， 就 是 所 谓 的 一 个 时 钟 周 期 (tick 或 jiffy)。 用 于 计算 已 经 过 去 了 
几 个 时 钟 周期 的 计数 恬 称 为 jiffies counter 【时 钟 周期 计数 器 ) 。jiffies counter 原先 是 
-个 32 位 的 计数 如 ， 不 过 到 了 2.6 版 的 Linux 内 核 则 是 一 个 64 位 的 计数 器 ( 注 1)。 


在 Linux 上 ， 系 统 定时 器 的 频率 称 为 Hz， 因为 有 一 个 代表 它 的 预 处 理 器 定义 了 相同 的 
名 称 。HZ 的 值 与 架构 有 关 , 而 不 是 Linux ABI 的 一 部 分 一 一 也 就 是 说 , 程序 无 法 依赖 
或 要 求 任何 特定 的 仁 。 以 往 ，x86 架构 会 使 用 “100” 这 个 值 ， 这 意味 系统 定时 器 每 秒 
运转 100 次 (也 就 是 系统 定时 器 具有 100 hertz 的 频率 )。 这 让 每 个 jiffy 具有 0.01 


译注 2: Toga Party 是 指 和 泰 见 派对 的 人 必须 围 上 床单 当 和 衣服 窜 ， 有 如 十 罗马 人 所 字 的 宽 外 褐 。 

注 ] : Linux 和 内核 的 未 来 版 本 可 能 会 走 tickless【 无 时 钟 周期 ) 的 路 线 或 实现 dynamic tick { 动 
态 时 钟 周 期 )， 在 此 情况 下 ， 内核 不 会 记录 明确 的 jiffy 值 。 了 到 而 代 之 的 是 ， 所 有 以 时 间 
为 基础 的 运算 将 执行 自动 态 初 始 化 的 定时 器 而 非 系 病 定时 器 。 


时 间 335 





(WHZ) 秒 的 值 , 到 了 2.6 版 的 Linux 内 核发 布 时 , 内 核 开发 者 将 HZ 的 值 提高 为 1000， 
这 让 每 个 jiffy 具有 0.001 秒 的 值 。 然 而 ， 在 2.6.13 与 之 后 的 版 本 中 ，HZ 的 值 变 为 
250， 这 让 每 个 jiffy 具有 0.004 秒 的 值 ( 注 2)。 这 是 Hz 的 值 无 法 避免 的 权衡 : 较 高 的 
值 可 以 提供 较 高 的 分 辩 率 ， 但 是 定时 器 的 开销 也 较 大 ，。 


虽然 进程 不 应 该 依赖 任何 固定 的 Hz 值 ， 不 过 POSIX 定义 了 一 个 机 制 可 用 于 在 运行 时 
确定 系统 定时 器 的 频率 ; 


long hz; 


hz = sysconf 【SC CLK_TCK}).: 
if (hz == -1} 
perror ("sysconf");) /* 应 这 不 全 发生 */ 

当 一 个 程序 想 确 定 系 统 定时 器 的 分 辨 率 时 便 可 以 使 用 此 接口 ,但 是 它 不 需要 将 系统 时 间 
值 转换 成 秒 数 ， 因 为 和 多数 的 POSIX 接口 所 导出 的 时 间 测 量 值 都 已 做 好 了 转换 或 者 已 被 
转换 成 一 个 固定 的 频率 ， 与 HZ 无 关 。 不 同 于 HZ， 这 个 固定 的 频率 是 系统 ABI 的 一 部 
分 ， 在 x86 上 值 为 100。 根 据 时 钟 周期 返回 时 间 值 的 POSIX 函数 会 使 用 CLOCKS_PER_ 
SEC 来 表示 固定 的 频率 。 


偶尔 ， 多 个 事件 读 在 一 起 会 导致 计算 机 关机 ， 有 上 时， 计算 机 的 电源 插头 甚至 会 被 拔 掉 。 
然而 , 计算 机 开机 后 却 能 够 拥有 正确 的 时 间 。 这 是 因为 多 数 计 算 机 有 一 个 以 电池 供电 的 
硬件 时 钟 (hardware clock) 用 来 存储 计算 机 美 机 时 的 时 间 与 日 期 。 当 内 核 启动 时 ， 它 
会 从 硬件 时 钟 来 初始 化 它 的 当前 上 时间 。 同 样 ， 当 用 尸 关 闭 系 统 时 ， 内核 会 将 当前 时 间 写 
回 硬件 时 钟 。 系 统 的 管理 者 可 通过 hwelock 命令 在 其 他 的 时 间 点 上 进行 时 间 的 同步 。 


Unix 系统 上 的 时 间 管 理 涉 及 了 几 项 任务 ， 任 何 指定 的 进程 只 与 其 中 一 些 任 务 有 关 : 这 
包括 了 了 设 定 与 取得 当前 的 壁 钟 时 间 、 计 算 琉 逝 的 时 间 . 修 眠 指定 的 时 间 量 、 进行 高 精确 
度 的 时 间 测 量 以 及 控制 定时 器 。 本 和 将 全 方位 说 明 与 时 间 有 关 的 任务 。 首 先 ,， 证 我 们 来 
看 Linux 会 使 用 哪些 数据 结构 来 表示 时 间 。 


时 间 的 数据 结构 

在 各 种 Unix 系统 发 展 的 同时 ， 也 连带 为 时 间 的 管理 实现 了 它们 自己 的 接口 ， 有 多 种 数 
据 结 构 用 于 表示 看 似 简 单 的 时 间 概 念 ,这 些 数据 结构 的 范围 从 简单 的 整数 到 各 种 多 字段 
的 结构 。 探 讨 实际 的 接口 之 前 ， 让 我 们 先 来 了 解 这 些 数据 结构 。 


往 2; HZ 现在 也 有 是 编译 时 上 内核 的 选项 ， 在 X86 架构 上 支持 100、250 及 1000 等 值 。 无 论 如 
何 ， 用 户 空 间 可 以 未 依赖 于 任何 特定 的 HZ 值 ， 
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原始 的 表示 法 

time _t 是 其 中 最 简单 的 数据 结构 ， 定 义 于 头 文件 <time.h> 中 。time_t 是 一 个 不 
透明 的 类 型 (opaque type) 。 然 而 , 在 多 数 Unix 系统 上 一 一 包括 Linux 一 一 此 类 型 只 
是 C 语言 的 long 类 型 的 typedef 


typedef long time_t; 


time_t 代表 自 纪 元 后 已 过 去 的 种 数 。 典 型 的 反应 是 “发 生 溢 出 之 前 它 就 会 被 废弃 不 
用 ! ”事实 上 ， 它 的 寿命 可 能 会 比 你 所 预期 的 还 入， 尽管 有 大 量 的 Unix 系统 仍 在 使 用 
它 ， 但 是 它 的 确 即 将 溢出 。 由 于 是 一 个 32 位 的 1ong 类 型 ，time._t 至 多 可 以 表示 日 
纪元 后 过 去 的 2,147,483,647 秒 。 这 意味 我 们 将 于 2038 年 再 度 遭 遇 Y2K 的 窘境 ! 然 
而 ， 幸 运 的 是 ， 等 到 2038-01-18 22:14:07 来 临时 ， 多 数 的 系统 与 软件 将 会 使 用 64 位 
的 了 时间 值 。 


然而 现在 是 微 秒 级 精确 度 
与 time_t 有 关 的 另 一 个 议题 是 一 秒 之 内 会 发 生 许多 次 。t imeval 结构 用 于 扩充 
cime_t ,加 入 了 微 秒 级 精确 度 。 此 结构 定义 于 头 文件 <sys /time.h> 中 , 如 下 所 示 : 
#include <gys/time.h> 
gtruct timeval { 
time 七 tv_sec; /* Beconde */ 


BUSBeCONnds t tv usec,; :* microseconds */ 


}s 


tv_sec 用 于 度量 种 数 ， 而 tv_usec 用 于 度量 微 秒 数 。 令 人 困惑 的 suseconds_t 
通常 是 一 个 整数 类 型 的 typedef 。 


甚至 更 好 : 纳 秒 级 精确 度 
timespec 结构 则 提升 至 奈 秒 级 分 辨 率 。 此 结构 定义 于 头 文 件 <time.h> 中 ， 如 下 
所 示 : 

#include <time.h> 

atruct timeepec { 


time t tw sec; 站 下 geconde */ 
long ty naec; i/* nanoseconds 去/ 
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假设 可 以 选择 ， 接 口 会 更 喜欢 使 用 纳 秒 级 (而 非 微 秒 级 ) 分 辨 率 〈 注 3)。 所 以 ， 目 从 
timespec 结构 被 引进 之 后 , 多 数 与 时 间 相 关 的 接口 均 转 而 使 用 它 , 因此 可 以 获得 较 高 
的 精确 度 。 然 而 ， 如 我 们 将 看 到 的 ， 有 一 个 重要 的 国 数 仍 在 使 用 上 imeval。 

实际 上 , 这 两 个 结构 都 没 办 法 提供 它们 所 陈述 的 精确 度 , 因为 系统 定时 器 并 无 法 提供 纳 
秒 项 至 是 微 秒 级 分 辩 率 。 然 而 , 在 接口 中 能 够 支持 这 样 的 分 辩 率 会 比较 好 ， 这样 不 管 系 
统 提 供 哪 种 分 辨 率 它 部 可 以 容纳 。 


分 解 时 间 
我 们 将 介绍 的 函数 中 有 些 会 在 Unix 的 时 间 与 字符 串 之 间 进 行 转换 ， 或 是 以 程序 设计 的 
方式 建立 字符 串 来 表示 特定 的 日 期 。 为 了 协助 此 过 程 ，C 标 肉 提供 了 tm 结构， 以 便 使 
用 人 类 可 阅读 的 格式 来 表示 “经 分 解 ”(broken-down) 的 时 间 。 此 结构 也 定义 于 
<time.,.hs. 

#include <time.h> 


Btruct tm 


int tm sec} /二 geconds */ 

int tm mins; 六 机 minutes */ 

int tm howurs; /* hours */ 

int tm mday; /* the day of the month */ 

int tm mon; # 二 the month */ 

int tm vaear; 站 省 the year */ 

int tm wday; +:* the day of the week */ 

int tm yday; V 二 the day in the vear */ 

int tm igsdet; /:* daylight savings time? */ 
#ifdef BSD SOURCE 

long tm gmtoffr; /* time zone's offget from GMT */ 


const char *tm zone; /* time zone abbreviation */ 
#enadif /二 BSD SOURCE */ 
}; 
tm 结构 让 我 们 更 容易 判断 time_t 的 值 ， 例 如 314159 是 星期 日 还 是 星期 六 (答案 
是 前 者 )/。 以 所 占用 的 空间 来 看 ， 用 它 来 表示 日 期 与 时 间 显 然 是 一 个 差劲 的 选择 ， 但 是 
用 它 来 回转 换 面 向 用 户 的 值 却 相 当 方 便 。 


tm 结构 中 包含 以 下 字段 ， 


tm sec 
指定 分 钟 数 后 已 过 去 的 秒 数 。 此 值 的 正常 范围 是 0 到 59, 但 是 也 可 能 出 现 61 这 
件 的 值 ， 代 表 多 了 2 国 种 。 


注 了: 此 外 ,timespec 结构 拿 扩 了 邻 人 困惑 的 suseconads_ 上 , 转 而 采用 了 向 单 易 懂 的 long， 


请 
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tm_ min 

站 定 小 时 数 后 已 过 去 的 分 钟 数 。 此 值 的 范围 是 0 到 59。 
tm_ hour 


午夜 之 后 已 过 去 的 小 时 数 。 此 值 的 范围 是 0 到 23。 
cm_mday 
-个 月 份 中 的 哪 一 天 。 此 值 的 范围 是 0 到 31。POSIX 并 未 指定 0 这 个 值 ， 然 而 
Linux 会 使 用 它 表示 前 一 个 月 份 的 最 后 一 天 。 
tm_mon 


自 1 月 起 算 的 月 份 数目 。 此 值 的 范围 古 0 到 11。 


tm year 


自 1900 年 起 算 的 年 份 数 日 。 

tm wday 
自 星期 日 起 算 的 一 周 中 的 天 数 。 此 值 的 范围 是 0 到 6。 

tm yday 
自 1 月 1 日 起 算 的 一 年 中 的 天 数 。 此 值 的 范围 是 0 到 365。 

tm_ isdst 
用 于 指示 其 他 字段 所 描述 的 时 间 是 否 在 使 用 日 光 刷 约 时 间 (daylight savings time ， 
常 简写 为 DST) 。 如 果 此 字段 为 正 值 . 代表 使 用 了 DST; 如 果 此 字段 的 值 为 0, 代 
表 没 有 使 用 DST， 如 果 此 字段 为 负 值 ， 代 表 DST 处 在 未 知 状态 。 

tm gqmtott 
当前 时 区 与 格林 威 治 标准 时 间 的 偏 移 量 (以 秒 计 )。 引 用 <time .hs 之 前 必须 先 
定义 _BSD_SOURCE 才 会 出 现 此 字段 。 


tm zonNne 
当前 时 区 的 缩写 一 一 例如 EST, 引 用 <time.hs 之 前 必须 先 定 六 _BSD_SOURCE 
才 会 出 现 此 字段 。 


进程 时 间 的 一 种 类 型 
类 型 clock_t 代表 时 钟 周 期 (clock tick)1。 它 是 一 个 整数 类 型 ， 通 常 是 1ong。 根 据 接 
口 的 不 同 ，clock 上 可 能 代表 系统 的 实际 定时 器 频率 (HZ) 或 CLOCKS_PER_SEC。 
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POSIX 时 钟 


本 音 所 讨论 的 系统 调用 中 有 一 些 会 使 用 POSIX 时 钟 (这 是 一 个 用 于 实现 和 表示 时 间 来 
源 的 标准 )。 类 型 clockia_t 用 于 表示 一 种 特定 的 POSIX 时 钟 ，Linux 支持 其 中 四 
种 
CLOCK MONOTONIC 
一 种 单调 递增 时 钟 ， 任 何 进 程 均 无 法 设 定 它 。 用 于 表示 自 某 个 未 特别 指定 的 起 点 
(例如 系统 引导 ) 之 后 已 过 去 的 时 间 。 
CLOCK PROCESS CPUTIME ILD 
一 种 可 从 处 理 器 取得 高 分 辩 率 的 每 个 进程 (per-process) 的 时 钟 。 例 如 ， 在 i386 
架构 上 ， 此 时 钟 使 用 的 是 时 间 惟 计数 器 (timestamp counter， 和 简写 为 TSC) 寄 
存 器 。 
CLOCK REALTIME 
全 系统 的 真实 时 间 〈 壁 钟 时 间 )。 设 定 此 时 钟 需 要 特权 。 
CLOCK THREAD _CPEUTIME _ID 
类 似 于 每 个 进程 的 时 钟 ， 但 是 对 一 个 进程 中 的 每 个 线程 而 言 是 唯一 的 。 
虽然 POSIX 定 妈 了 四 种 时 间 来 源 , 但 是 它 只 需要 CLOCK_REaALTIME。 因 此 , 尽管 Linux 
能 够 可 靠 地 提供 四 种 时 钟 ， 但 具 可 移植 性 的 程序 代码 应 该 只 使 用 CLOCK_RERLTIME。 


时 间 来 源 的 分 辨 率 
POSIX 所 定义 的 clock_getres() 国 数 可 用 于 取得 给 定时 间 来 源 的 分 辩 率 ; 
#include <time.hs 


int clocsk getres (clockid t clock iqd, 
atruct timespec *rees); 


执行 成 功 上 时 ，clock_getres() 会 将 clock_id 所 指定 时 钟 的 分 辨 率 存 人 res， 如 
果 它 不 是 NULL, 则 会 返回 0。 执行 失败 时 , 此 国 数 会 返回 -1 并 将 errno 设 定 为 下 面 
其 中 一 个 错误 代码 ; 
EFALLT 

res 是 一 个 无 效 的 指针 。 


EINVAL 


在 此 系统 上 ，clock_ia 不 是 一 个 有 效 的 时 间 来 源 。 
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下 面 的 范例 程序 代码 会 输出 前 一 市 所 讨论 到 的 四 种 时 间 来 源 : 


clockid t clocks[] = f{ 
COLOCK REALTIME., 
CLOCERE _ MONOTONIC, 
CLOCE PROCESS CPUTIME_ID, 
CLOCKE_ THREAD CPUTIME TD， 
(clockid tt} -1 }:; 


for ti = 0: clocks[1i] = {elockid cl -1: i++}) 1 
styUuct timespec res; 
int ret: 


ret = clock getres (clocks[i], &res):; 
if ret) 
perror ("clock gqetres"™).;: 
El se 
printti ("clock=$%d sec=$®]d nsec=$s1d\n", 
clocks|i], res,.twv sec, res. tv_nNsec):; 


} 
在 现代 的 x86 系统 上 ， 输 出 会 像 下 面 这 样 : 


lock=0 sec=0) nsec-A4000250 

clock=] sec=0 nsec=A000250 

clock=2 Sec=0 nsec=1] 

clock=3 Sec=0 nsec=1 
注意 ，4,000,250 纳 种 就 是 4 毫秒 ,也 就 是 0.004 种。 反 过 来 说 ,0.004 种 就 是 Hz 值 为 
250 的 x86 系统 时 钟 的 分 辩 素 ， 如 同 我 们 在 本 章 第 一 节 所 做 的 讨论 。 因 此 ， 我 们 会 看 
到 CLOCK_REALTIME 与 CLOCK_MONOTONIC 被 乡 定 到 jiffy 以 及 系统 定时 器 所 提供 
的 分 辩 率 。 相 反 ,， CLOCK_PROCESS_CPUTIME_ID 与 CLOCK_ THREAD _ CPUTIME ID 
所 运用 的 是 分 辩 率 较 高 的 时 间 来 源 一 一 在 此 x86 机 器 上 ,我 们 看 到 TSC 提供 了 纳 秒 级 


在 Linux (以 及 多 数 其 他 Unix 系统 ) 上 ， 使 用 POSIX 时 钟 的 所 有 函数 需要 链接 librt 
与 最 后 的 目标 文件 .举例 来 说 , 如 果 要 将 前 面 的 程序 代码 片段 编译 成 一 个 可 执行 的 程序 ， 
你 可 以 使 用 如 下 这 道 命令 ; 


$ gec -Wall -W -Da -lrt -g -ob Snippet ‘snippet,.wc 


取得 当前 时 间 


应 用 程序 会 因为 一 些 理由 而 想 取 得 当前 的 时 间 与 日 期 : 显示 给 用 户 看 . 计算 相对 的 或 已 
过 去 的 时 间 、 一 个 事件 的 时 间 惟 等 。 最 简单 及 以 往 最 常用 来 取得 当前 时 间 的 方法 是 
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tijme () 国 数 ; 

#include <time.h> 

time 七 time (time 七 *t)} 
time () 会 返回 被 表示 成 自 纪 元 后 已 过 去 的 秒 数 的 当前 时 间 。 如 果 参 数 上 不 是 NULL， 
此 函数 还 会 将 当前 时 间 写 人 所 提供 的 指 
发 生 错 误 时 ， 此 国 数 会 返回 -1 (转型 成 上 ime_c)， 而 且 会 适当 地 设 定 errnoe。 唯 一 
可 能 的 错误 是 EFaULT， 代 表 上 上 是 一 个 无 效 的 指针 。 


例如 : 
time t tt, 


printf ("current time: ld\n", {long) time tl&t)); 
printf "the same valuyue: $1d\n", (tlong) ti); 


一 个 简单 的 时 间 处 理 方法 
time_t 的 “ 自 纪元 后 已 过 去 的 秒 数 ” 表 示 法 ,并 不 是 自从 重大 事件 发 生 之 后 实际 过 
去 的 秒 数 。Unix 进行 计算 时 会 假设 所 有 可 以 被 4 整除 的 年 份 都 是 同年 ， 但 是 会 完全 
忽略 图 秒 。t ime_t 表示 法 的 重点 并 不 在 于 它 是 准确 的 ， 而 是 在 于 它 是 一 致 的 一 
这 就 是 天 键 所 在 。 


一 个 更 好 的 接口 
gettimeoctaay() 用 于 扩充 ime()， 它 加 入 了 微 种 级 分 辩 率 ， 
#incelude <syas/time.h> 


int gettimeofday (struct timeval *tw, 
Struct timezrzone *tw); 
执行 成 功 时 , gettimeofday () 会 将 当前 时 间 放 入 tv 所 指向 的 timeval 结构 并 且 
返回 0。timezone 结构 与 tz 参数 已 被 废弃 ,不 应 该 使 用 在 Linux 上 。NULL 总 是 被 
传人 七 z。 


执行 失败 时 ， 此 调用 会 返回 -1 并 将 errno 设 定 为 EFAULT， 这 是 唯一 可 能 发 生 的 错 
误 ， 代 表 tv 或 tz 是 一 个 无 效 的 指针 。 


二 
二 
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StrFUuct timeval twv; 
iTit 工序， 


ret = gettimeofday {&tv, NULL)}; 
ii {ret) 
perror lI"gettimecoftday"}:; 
避 ] 吕 总 
printf ("seconds=%]ld useconds=%]1d\n", 
(jongy tv.tv sec, (long} tyv.tv usec), 


timezone 结构 之 所 以 会 被 废弃 是 因为 内 核 并 未 管理 时 区 , glibc 拒绝 使 用 timezone 
结构 的 tz_adsttime 字段 。 下 一 节 我 们 将 看 到 时 区 的 操作 方式 。 


一 个 高 级 接口 
POSIX 所 提供 的 clock_gettime() 接口 可 用 于 取得 给 定时 间 来 源 的 时 间 。 然而 ,更 
有 用 的 是 此 函数 提供 了 纳 秒 级 精确 度 : 


#include <time.h> 


int clock gettime {clockid t clock ia， 
Btruct timespec 六 七 号 ) 


执行 成 功 时 ， 此 调用 会 返回 0， 而 且 会 将 clock_ida 所 指定 的 时 间 来 源 的 当前 时 间 存 
人 上 s。 执 行 失败 时 ， 此 调用 会 返回 -1， 而 且 会 将 errno 设 定 为 下 面 其 中 一 个 值 ， 


EFAULT 
ts 是 一 个 无 效 的 指针 。 
EINVAL 
clock_id 在 此 系统 上 是 一 个 无 效 的 时 间 来 源 。 
下 面 的 范例 程序 代码 可 以 从 四 种 标准 的 时 间 来 源 取 得 当前 时 间 : 


clockid_t clocks[] = 1 
CLOCK_REALTIME, 
CLOCE_MOMNMOTONIC, 
CLOCK., EROCESS CPUTIME ID, 
CLOCK THAREAD CPUTIME ID, 
(clockid_t) -1 }; 

int i; 


feor {i = 用; clocks[i] = (clockid_ cy ~1; 1++) 1 
struct timespec ta; 
lint ret:; 
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ret = clock gettime iclacks|i], &ts}; 
if lret) 
perror ("clock_gettime"}):; 
|] se 
printf ("clock=%d sec=%1ld nsec=$%$1d\n", 
clocks[il, ts.tyv_sec, ts.tv nsecl: 


取得 进程 时 间 
times () 系统 调用 可 用 于 取得 正在 运行 的 进程 与 它 的 子 进程 的 进程 时 间 , 以 clock tick 


#include <agvya/times.h> 


atruct tme 1{ 
Glock 七 tms utime; /* User time consumed 去/ 
Clock 七 tms stime} /* System time consumed */ 
lock t tmas cutime; /* USer time conasumed by children */ 
clock t tms catime; /* SYSLem time consumed by children */ 


clock 七 timee (etruct tms *buf)}); 


执行 成 功 时 ， 此 调用 会 将 进行 调用 的 进程 与 它 的 子 进程 所 耗 用 的 进程 时 间 填 入 buf 所 
指向 的 tms 结构 .所 汇报 的 时 间 会 被 分 解 成 用 户 时 间 和 系统 时 间 。 用 户 时 间 (uwser time) 
就 是 在 用 户 空间 中 执行 程序 代码 所 花 的 时 间 。 系 统 时 间 (system time) 就 是 在 内 核 空间 
中 执行 程序 代码 所 花 的 时间 一 一 例如， 系统 调用 或 页 面 失误 期 间 。 只 有 在 子 进程 终止 
以 及 父 进程 对 进程 调用 waitpid() (或 一 个 相关 函数 ) 之 后 才 会 汇报 子 进程 的 时 间 。 
此 调用 会 返回 自从 过 去 某 一 参考 点 之 后 单调 递增 的 时 钟 周期 数目 。 这 个 参考 点 曾经 是 系 
统 引 导 时 间 一 一 因此 times() 国 数 会 返回 System uptime (以 时 钟 周 期 计 ), 但 是 现在 
这 个 参考 点 太 约 是 系统 引导 之 前 4.29 亿 秒 。 内 核 开 发 者 会 实现 此 变更 来 避免 内 核 程序 代 
码 无 法 处 理 System uptime 绕 回 而 变 为 老 的 情况 。 此 国 数 所 返回 的 是 绝对 值 〈 而 非 相 对 
值 )， 因 而 毫 无 用 处 ， 然 而 两 次 调用 之 间 的 相对 变化 仍 是 有 价值 的 。 


执行 失败 时 ， 此 调用 会 返回 -1 并 且 将 errno 设 定 为 适当 的 值 。 在 Linux 上 ， 只 有 一 
个 可 能 的 错误 代码 EFAULT， 代 表 buf 是 一 个 无 效 的 指针 。 
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设 定 当前 时 间 

前 面 所 描述 的 是 如 何 取 得 时 间 ,然而 应 用 程序 偶尔 也 需要 将 当前 的 时 间 与 日 期 设 定 为 一 
个 指定 的 值 。 这 几乎 总 是 可 以 使 用 专 为 此 用 途 而 设计 的 实用 程序 来 处 理 ， 例 如 auie。 
time({) 的 时 间 设 定 版 本 为 stimel): 


Hdefine SVID SOURCE 
#incelude <*time.h> 


i 区 it Btime (time tt *t yy 
执行 成 功 时 ，stime{) 会 将 系统 时 间 设 定 为 t 所 指 的 值 并 返回 0。 调 用 此 调用 的 用 户 
必须 上 有 具备 CAP_SYS_TIME 能 力 。 通 常 只 有 root 用 户 上 有 具有 此 能 力 。 


执行 失败 时， 此 调用 会 返回 -1 并 将 errnc 设 定 为 EFAULT {代表 t 是 一 个 无 效 的 指 
针 ) 或 EPERM (代表 进行 调用 的 用 户 并 不 具有 CAP_sYs_TIME 能 力 )。 


它 的 用 法 相当 简单 
time tc 七 = 1; 
int ret; 


/* 将 时 间 设 定 为 自 纪 元 之 后 1 种 */ 
ret = stime 【让 七) 
if (ret) 

perror ("stime")}):; 


下 一 太 我 们 将 看 到 能 够 把 时 间 的 人 类 可 阅读 形式 转换 成 一 个 time_t 的 工作 简化 的 函 
数 。 


以 微 秒 级 精确 度 设 定时 间 
gettimeofday(}) 的 时 间 设 定 版 本 为 settimeofday |). 
#include <ays/time.h> 


int gettimeofday (const struct timeval #tw ， 
conat eaetruct timezone *tze); 


执行 成 功 时 ，settimeofday{) 会 将 系统 时 间 设 定 为 tv 所 提供 的 值 并 且 返 回 0。 如 
同 gettimeofday(), 将 NULL 传人 tz 是 最 好 的 做 法 。 执 行 失败 时 ， 此 调用 会 返回 
-1 并 且 将 errno 设 定 为 下 面 其 中 一 个 值 : 
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EFAUDLTL 

tv 或 tz 指向 了 一 段 无 效 的 内 存 区 域 。 
EINVAL 

所 提供 的 结构 之 一 中 的 一 个 字段 是 无 效 的 。 
EPERM 


进行 调用 的 进程 没有 CAP_SYS_TIME 能 力 。 
下 面 的 范例 程序 代码 会 将 当前 时 间 设 定 为 1979 年 12 月 中 的 一 个 星期 六 : 


struct timeval tw = { .tyv_sec = 31415926, 
‘Ev USEcC = 27182918 }; 
int ret; 


ret = settimeofday (&tv, 区 ULL) ; 


if (ret)} 
perror ("settimeoftday"}y:; 


一 个 用 于 设 定 时 间 的 高 级 接口 
正如 clock_gettime() 改善 ] gettimeofday()}，clock_settime() 淘汰 了 
settimeofday!(}: 

#include <time.h> 


int clock settime {clockid t clock 并 aa， 
const struct timespec *ta)s 


执行 成 功 时 , 此 调用 会 返回 0 并 将 clock_ia 所 指定 的 时 间 来 源 设 定 为 ts 所 指定 的 
时间。 执行 失败 时 ， 此 调用 会 返回 -1 并 将 errno 设 定 为 下 面 其 中 一 个 值 : 


EFAULT 
ts 是 一 个 无 效 的 指针 。 
EINVAL 
clock_id 在 此 系统 上 是 一 个 无 效 的 时 间 来 源 。 
EPERM 


进程 缺乏 设 定 指定 时 间 来 源 所 需 的 权限 ， 或 所 指定 的 时 间 来 源 不 可 以 被 设 定 。 
企 多 数 系统 上 ，CLOCK_REALTIME 是 唯一 可 设 定 的 时 间 来 源 。 所 以 此 函数 崔 一 胜 过 
settimeofday () 的 地 方 就 是 它 提供 了 纳 种 级 分 辩 率 (而 且 不 必 处 理 无 用 的 timezone 
结构 )。 
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操作 时 间 

Unix 系统 以 及 C 语言 提供 了 一 系列 的 函数 可 用 于 转换 经 分 解 的 时 间 (用 于 表示 时 间 的 
ASCII 字符 串 ) 与 time_t。asctime() 会 将 一 个 tm 结构 经 分 解 的 时 间 一 一 
转换 为 一 个 ASCII 字符 捉 ， 





#include <time.h> 


char * aactime (conasat struct tm *tm):; 
char * asctime r (congt struct tm *tm, char *buf); 


asctime() 会 返回 一 个 指向 静态 分 配 的 字符 串 的 指针 ,随后 对 任何 时 间 函 数 所 进行 的 
调用 可 能 会 改写 此 字符 串 ，asctime() 并 不 具有 线程 安全 性 。 

因此 ， 多 线程 程序 (以 及 厌恶 接口 设计 不 当 的 开发 者 ) 应 该 使 用 asctime_r1()。 此 国 
数 并 不 会 返回 一 个 指向 静态 分 配 的 字符 串 的 指针 ， 它 会 通过 buf 提供 字符 串 (长 度 至 
少 为 26 个 字符 )。 


发 生 错 误 时 ， 这 两 个 国 数 都 会 返回 NULL。 
mktime() 也 可 以 用 于 转换 一 个 tm 结构 ， 但 是 转换 的 结果 为 time_t， 
#incljude <time.h> 
time 七 mrtime (struct tm *tm); 
mktime({) 还 会 在 指定 过 tm 时 经 tzset() 设 定时 区 (time zone)。 发 生 错 误 时 ， 
它 会 返回 -1 (转型 成 一 个 time_t)。 
ctime() 可 用 于 将 一 个 time_t 转换 成 它 的 ASCII 表示 法 ， 


#include <time.h» 


char * ctime (conet time 七 *timep); 
char * ctime rr {const time 七 *timep, char *buf); 


执行 失败 时 ， 它 会 返回 NULL。 例 如 : 
time_t t = time (NULL).; 


printf ("the time a mere line ago: Ps”, ctime (Ig&t)): 


注意 ， 少 了 换行 符 。 或 许 你 会 觉得 不 方便 ，ctime() 会 在 它 所 返回 的 字符 串 中 添加 换 
行 特 。 


如 同 asctimel)，ctime() 会 返回 一 个 指向 静态 字符 串 的 指针 。 因为 这 么 做 并 不 有 具 
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有 线程 安全 性 ， 所 以 多 线程 程序 应 该 改 用 ctime_r()， 它 所 操作 的 是 puf 提供 的 组 

冲 区 。 此 缓冲 区 的 长 度 至 少 为 26 个 字符 。 

gmt ime () 可 用 于 将 指定 的 time_t 转换 成 一 个 tm 结构 ,结果 会 根据 UTC 时 区 来 表示 ， 
#include <time.h» 


Btruct tm * ogmtime (conast time 七 *timep); 
gtruct tm * gmtime r (congt time 七 *timep, gtruct tm *result}); 


执行 失败 时 ， 它 会 返回 NULL。 
此 函数 会 静态 分 配 返 回 的 结构 ， 因 而 同样 不 具有 线程 安全 性 。 多 线程 程序 应 该 使 用 
gmtime_r({)， 它 操作 的 是 result 所 指向 的 结构 。 
localtimer) 与 localtime_r({) 的 功能 分 别 如 同 gmt ime() 与 gmtime_r({)， 
但 是 它们 会 以 用 户 的 时 区 来 表示 特定 的 time_t: 

#include <time.hs 


Btruct tm * localtime (const time t *timep); 
atruct tm * Jocaltime rr {const time 七 *timep, struct tm *result); 


如 同 mktime(),，, 调用 jocaltime1() 也 会 调用 tzset(}) 并 初始 化 时 区 。 
localtime_r() 是 否 会 进行 此 步骤 并 未 特别 指出 。 
qifttimef) 会 返回 两 个 time_t 值 (会 被 转型 成 Gaouble) 之 间 已 过 去 的 种 数 ， 
#1include <time.h» 
double difftime (人 (time 七 timel, time 七 time0); 
在 所 有 的 POSIX 系统 上 ，time_t 是 一 个 算术 类 型 ， 而 且 aifftime() 等 效 于 下 面 
这 道 忽 略 谱 出 检测 的 减法 运算 
(doubley {timel ~ timed) 


在 Linux 上 ， 因 为 time_t 是 一 个 整数 类 型 ， 所 以 不 需要 转型 成 double。 然 而 ， 如 
果 考 虑 到 可 移植 性 ， 则 应 该 使 用 aifftimel)。 


调整 系统 时 钟 

姨 钟 时 间 中 巨大 而 突然 的 跳动 (jump ) 会 对 那些 运算 依赖 绝对 时 间 的 应 用 程序 造成 大 混 
乱 。 考 虑 一 个 make 的 例子 ， 它 会 根据 Makefile 的 描述 构建 软件 项 目 。 每 次 调用 make 
并 不 会 重新 构建 整个 源码 树 ; 否则 ， 在 大 型 的 软件 项 目 中 ,即使 只 变更 了 一 个 文件 , 结 
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果 也 可 能 要 进行 好 几 个 小 时 的 重新 构建 。 事 实 上 ，make 会 查看 源码 文件 (例如 wolf.e) 
与 冉 标 文件 最 近 被 写 入 的 时 间 (文件 的 时 间 截 )。 如 有 果 源 码 文 件 一 一 或 者 它 的 任何 必要 
条 件 (prerequisite)， 例 如 wolfh 一 一 比 目 标 文件 还 新 ，make 便 会 重新 构建 该 源码 文 
件 ， 以 更 新 目标 文件 。 然 而 ， 如 果 源 码 文 件 没 有 比 目 标 文件 新 ， 则 不 会 采取 任何 行动 。 


因此 ， 如 果 内 户 发 现 他 的 时 钟 偏 移 了 两 三 个 小 时 ， 于 是 执行 date 来 更 新 系统 时 钟 ， 想 
起 看 会 发 生 什 么 事 。 如 采用 户 接 着 更 新 与 重新 保存 wotf.c， 则 可 能 会 有 问题 。 如 时 用 户 
将 当前 时 间 往 回调 ， wolf.e 将 比 wete 还 旧 一 一 即使 事实 并 非 如 此 ， 因 而 不 会 有 重新 
构建 的 事情 发 生 。 


为 了 避免 此 类 问题 ，Unix 提供 了 adjtime{) 函数 ,可 用 于 朝 着 所 指定 的 增 量 (delta) 
逐步 调整 当前 时 间 。 这 主要 是 由 Network Time Protcol (NTP) 之 类 的 监控 程序 所 进行 
的 后 台 话 动 ， 以 便 不 断 地 以 正确 的 时 钟 偏 移 来 调整 时 间 ， 使 用 aajtime() 将 可 最 小 
化 它们 对 系统 所 造成 的 影响 。 


#define BSD SOURCE 
#inoclude sya/time.h> 


int adjtime (const struct timeval *delta, 
struct timeval *olddelta): 


一 个 成 功 的 adjt ime {) 调用 会 指示 内 核 根据 Gelta 慢 慢 开始 调整 时 间 并 且 返 回 0。 
如 未 delta 所 指定 的 时 间 和 是正 值 ， 则 内 核 会 以 delta 加 快 系统 时 钟 直到 完成 修正 ; 
如 未 delta 所 指定 的 时 间 是 负 值 ， 则 内 核 会 让 系统 时 钟 减 慢 直到 完成 修正 。 内 核 会 应 
用 所 有 的 调整 ， 让 时 钟 总 古 哇 现 单调 递增 , 而 且 绝 对 不 会 造成 时 间 的 突然 改变 。 即 使 是 
负 值 的 aelta， 所 进行 的 调整 也 不 会 将 时 钟 的 时 间 往 回调 ， 事 实 上 ， 时 钟 会 变 慢 ， 直 
到 系统 时 间 与 所 要 修正 的 时 间 趋 于 一 致 ， 


如 本 delta 的 值 不 是 NULL ， 则 内 核 会 停止 处 理 任何 先前 已 注册 的 修正 。 然 而 ， 已 进 
行 的 修正 《如 果 有 ) 只 有 部 分 会 被 维护 。 如 果 olgdelta 的 值 不 是 NULL ， 则 任何 先 
前 已 注册 但 古 疝 未 应 用 的 修正 会 被 写 人 所 提供 的 timeval 结构 ,将 NULL 传人 delta 
而 且 colddelta 是 有 效 的 ， 可 以 取得 任何 正在 进行 的 修正 ， 


adjtime() 所 进行 的 应 该 是 小 量 的 修正 -一 理想 的 情况 是 使 用 NTP， 如 稍 早 所 述 ， 
其 所 进行 的 束 是 小 量 的 修正 〔 几 秒 钟 )。Linux 维护 了 几 千 秒 的 最 低 与 最 高 的 修正 阅 值 
(threshold ) 。 

皮 生 条 医 时，aadjcimel) 会 返回 -1 并 将 errno 设 定 为 下 面 其 中 一 个 值 ; 


EFAULT 
delta 或 olddelta 是 一 个 无 效 的 指针 。 


时 间 


EINVAL 


delta 所 描述 的 调整 太 大 或 太 小 。 


EPERM 


进行 调用 的 用 户 并 不 有 具有 CAP_SYS_TIME 的 能 力 。 
相 较 于 adjtime1() 所 采用 的 逐步 修正 做 法 ，RFC 1305 所 定义 的 是 一 个 更 强 而 有 力 ， 
也 相对 更 复杂 的 时 钟 调整 算法 。Linux 将 这 个 算法 实现 成 adjtimex () 系统 调用 : 


#include <sys/timex.h> 


int adjtimex {struct timex *adj); 
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adjtimex() 可 将 与 时 间 有 关 的 内 棱 参 数 读 进 adj 所 指向 的 timex 结构 。 取 决 二 此 
结构 的 modes 字段 ， 此 系统 调用 可 能 会 额外 设 定 一 些 参 数 。 


timex 结构 定义 于 头 文件 <sys /timex.h> 中 ， 如 下 所 示 : 


struct timex 二 
int modes; 
long offset:; 
long freq; 
long maxerror: 
long esterror; 
int status; 
long conastant} 
long preciagion; 
long tolerance; 
Btruct timeval time; 
long tick; 

] 1 


i 
A 
A 
时 
攻击 
六 十 
A 
六 证 
并 定 
六 十 
六 章 


mode Selector */ 

time offset (usec) */ 

frecquency offset (scaled ppm) */ 
maximam error (usec) */ 
estimated erroeor (usec) */ 

ClocGk status */ 

PLL time constant */ 

lock precision {ugec) */ 

clock fraegquency tolerance {ppm) */ 
GUuUrrent time *) 

USece between clocok ticks */ 


modes 字段 的 值 是 下 面 一 个 或 多 个 标志 的 按 位 OR 运算 : 


ADJ_OFFSET 

由 of fset 设 定 时 间 偏 移 值 。 
ADJ_FREQUENCY 

由 freq 设 定 频 率 偏 移 值 。 
ADJ MAXERROR 

由 maxerror 及 定 了 到 大 殿 老 。 


ADJ_ESTERROR 


由 esterror 弃 定 所 估计 的 误差 。 


ADJ STATUS 
由 status 设 定 时 钟 状 态 。 
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ADJ_TIMECONST 
由 constant 设 定 锁 相 环 (phase-locked loop， 篆 简写 为 PLL) 的 时 间 常 量 。 
ADJ_TICK 
由 tick 设 定时 钟 周期 。 
ADJ_OFFSET_SINGLESHOT 
只 由 offset 设 定 一 次 时 间 偏 移 值 ， 使 用 商 单 的 算法 ， 如 同 adjtime()。 
如 果 modes 的 值 为 0， 不 会 设 定 任何 值 。 只 有 有 具备 CAP_SYS_TIME 能 力 的 用 户 可 以 
提供 一 个 非 等 的 modes 值 ; 任何 用 户 均 可 以 将 0 提供 给 modes， 以 便 取 得 所 有 参数 ， 
但 是 不 会 对 它们 进行 设 定 。 
执行 成 功 时 ，adjtimex({) 会 返回 当前 时 钟 的 状态 ， 可 以 是 下 面 其 中 一 个 值 : 
TIME_OK 
时 钟 已 被 同步 。 
TIME_INS 
国 种 将 被 插 人 。 
TIME_DEL 
羡 秒 将 被 删除 。 
TIME_OOP 
亲 秒 正在 进行 中 。 
TIME_WRIT 
国 种 刚 发 生 。 
TIME_BAD 
时 钟 未 被 同步 。 
执行 失败 时 ，adjtimex1() 会 逮 回 -1 并 将 errno 设 定 为 下 面 其 中 一 个 错误 码 : 
EFAULT 
aaj 十 一 个 无 效 的 指针 。 
EINVAL 
modes、offset 或 tick 中 有 一 个 或 多 个 是 无 效 的 。 
EPERM 
modes 是 非 零 值 ， 但 是 进行 调用 的 用 户 并 不 具有 CAP_sYs_TIME 能 力 。 
adjtimex{) 是 Linux 特有 的 系统 调用 。 考 虑 到 可 移植 性 的 应 用 程序 应 该 使 用 adjtime ()，。 
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RFC 1305 定义 的 是 一 个 复杂 的 算法 ， 所 以 adjtimex() 的 完整 说 明 已 超过 了 本 书 的 
范畴 。 进 一 步 的 信息 请 参见 RFC。 


休眠 与 等 待 


有 些 函 数 可 让 一 个 进程 休眠 (暂停 执行 ) 指定 的 时 间 量 。 此 类 函数 中 第 一 个 要 介绍 的 是 
sleep () ， 它 会 让 进行 调用 的 进程 休眠 seconas 所 指定 的 秒 数 : 

#include <uniatad.h> 

ungsigned int sleep (unsigned int geconds}:; 
此 调用 会 返回 尚未 睡 完 的 秒 数 。 因此， 一 次 成 功 的 调用 会 返回 0, 但 是 函数 可 能 会 返回 
介 于 0 与 seconds ( 含 ) 的 其 他 值 (如 果 休 虐 的 时 候 过 到 一 个 信号 中 断 )。 此 函数 不 


会 设 定 errno。sleep() 的 多 数 用 户 并 不 在 平 进程 实际 睡 了 多 长 的 时 间 , 因而 不 会 检 
查 返 回 值 : 

sleep (7); zx 体 眼 7 秒 的 时 间 *; 
如 果 睡 完 指定 的 时 间 真 的 很 重要 ， 你 可 以 使 用 它 的 返回 值 持续 调用 sleep() ， 直 到 它 
点 回 0: 

unsigned int & = 5; 


+:* 和 休眠 3 秒 的 时 则 : 没有 任何 借口 */ 


while (SS sleep (5))) 


以 微 秒 级 精确 度 进行 休眠 
仅 以 秒 的 粒度 进行 休眠 毫 无 用 处 。1 秒 在 现代 的 系统 上 是 一 个 漫长 的 时 间 ， 所 以 程序 通 
常会 想 以 亚 种 级 分 辨 率 进 行 体 眼 。 本 节 要 介绍 的 是 usleep1): 


f 于 BSD vergsion *) 
#include zunigstd.,hy 


void ugsleep (unsigned long usec).; 
/* SUSV2 vergion *)/ 
#define XOPEN SOURCE S00 


#include <unigstd.h> 


int usleep (useconds 七 usgec): 


-次 成 功 的 usleep() 调用 可 让 进行 调用 的 进程 休 眼 usec 微 秒 。 不幸 的 是 , BSD 与 
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Single UNIX Specification (SUS) 对 此 函数 的 原型 有 歧义 。 此 函数 的 BSD 版 本 具有 一 
个 类 型 为 unsigned long 的 参数 , 而 且 没 有 返回 值 。 然而 , 此 函数 的 SUS 版 本 却 具 
有 一 个 类 型 为 useconds_t 的 参数 ， 而 且 会 返回 一 个 int 值 。 如 果 _XOPEN_SOURCE 
被 定义 成 500 或 更 高 的 值 ， Linux 采用 SUS 的 做 法 ;如果 _XOPEN_SOURCE 未 定义 或 
者 被 设 定 成 小 于 500 的 值 ， 则 Linux 会 采用 BSD 的 做 法 。 


执行 成 功 时 ，SUS 版 本 会 运 回 sh 时 ， 则 会 返回 - 1。 有效 的 errno 值 是 
EINTR pe -个 信 县 中 断 ) 或 是 EINVAL (和 如果 usecs 太 大 。 在 
Linux 上 ， en en 因此 绝 和 不 会 发 生 此 错 民 )。 


按 规 定 ，useconds_t 类 型 是 一 个 无 符号 整数 ， 可 以 保存 高 达 1,000,000 的 值 。 


由 于 这 两 种 不 兼容 原型 之 间 的 差异 以 及 有 些 Unix 系统 仅 支 持 其 中 一 种 原型 的 事实 ， 所 
以 聪明 的 做 法 就 是 不 要 显 式 地 在 你 的 程序 代码 中 引用 useconds_t 类 型 。 要 达到 最 大 
的 可 移植 性 ， 应 该 假设 参数 是 一 个 unsigned int， 而 不 要 依赖 usleep{) 的 返回 


值 ; 

VOId usleep runsigned int uuseec).; 
它 的 用 法 如 下 所 未 : 

unsigned int usecs = 200; 

usleap (USECS); 


这 适用 于 此 函数 的 任何 一 种 变 体 ， 而 且 仍 然 可 以 进行 错误 检查 ; 
errno = D0} 
usleep (1000}); 
if (errns) 
perror lI"uUsleep"): 


然而 ， 多 数 程序 并 不 检查 或 关心 usleep!() 的 错误 。 


以 纳 秒 级 精确 度 进行 休眠 
Linux 不 鞍 成 使 用 usleep() 函数 ， 所 以 使 用 nanosleept{) (提供 纳 秒 级 分 辨 率 |/ 
及 功能 更 多 的 接口 ) 来 取代 它 : 


#define FOSIX C SOURCE 199309 
#include <time.h> 


int nanosleep (const struct timespec *req, 
struct timespec *rem): 
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一 次 成 功 的 nanosleep () 调用 可 让 进行 调用 的 进程 修 卢 reg 所 指定 的 时 间 , 然后 返 
0。 发 生 错误 时 ， 此 调用 会 返回 -1 并 且 对 errno 进行 适当 的 设 定 。 如 果 有 一 个 信 
号 计 休 眠 被 中 断 ， 此 调用 会 在 指定 的 时 间 过 去 之 前 先行 返回 。 在 此 情况 下 ， 
nanosleep{) 会 返回 -1 并 且 将 errno 设 定 为 EINTR。 如 果 rem 的 值 不 是 NULL， 
则 此 函数 会 将 剩 下 的 休 卢 时间 (req 所 指定 的 时 间 尚 未 睡 完 的 部 分 ) 放 入 rem。 然 后 
程序 可 以 重新 发 出 此 调用 ,将 rem 传人 reg (如 稍 后 所 示 )。 


下 面 是 其 他 可 能 的 errno 值 : 


EFAULT 
req 或 rem 是 一 个 无 效 的 指针 。 


EINVAL 
req 的 字段 中 有 一 个 是 无 效 的 。 


基本 情况 下 ， 它 的 用 法 很 简单 : 


struct timespec redq = { .tv sec = 0, 
.tvw_ nsec = 200 }: 


i 休 卢 200 ns */ 
ret = nancsleep (lg&reg, NULL)}); 
if {ret) 

Derror ("nanosleep"}: 


下 面 的 范例 用 到 了 第 二 个 参数 ， 和 如 果 被 中 断 ， 可 以 继续 休眠 : 


Struct timespec reg = 1 .tvVv_Sec = 0, 
.ty _ nsec = 1369 }:; 

struct timespec rem; 

int ret: 


/sa 林 虹 1369 ns */ 
retry: 
ret = nanocsleep (&redgq, &rem); 
if (ret)y 1 
if (errTrnio == EINTR) 1{ 
A 以 所 提供 的 剩余 时 间 再 试 -次 */ 
Teg.TtY_SsSec = IEMm.,.ELY Sec: 
redg.tyv nsec = Tem.tv nsec; 
goto retry; 
} 
Perror ("nanosleep"}; 


1 
下 面 是 完成 相同 且 标 的 另 一 种 做 法 (或 许 更 有 效率 ， 但 是 较 不 具 可 读 性 ): 


striuct timespec reg = { .tw sec = 1, 


3 深 
二 
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,ty NSsSec = 8 }; 
struct timespec rem: *a = &red, *b = &rem; 


1 休眠 1 秒 */ 


while (nanosLeep (a, b) ER errno == EINTR) 1 
struct timespec *tmp = a; 
a = b; 
b= tmp; 


相 较 于 sleep() 与 usleep()，nanosleep{) 具有 以 下 优点 : 
有 具有 纳 秒 (相对 于 秒 或 微 秒 ) 级 分 辨 率 。 

. 经 POSIX.1b 标 崔 化 。 

并 未 通过 二 信号 号 实现 ( 稍 后 会 过 论 此 陷阱 )。 


尽管 不 赞成 使 用 ,许多 程序 仍 偏好 使 用 usleep () 而 非 nanosleep{) 一 一 值得 庆 举 
的 是 ,至少 现在 使 用 sieap() 的 应 用 程序 越 来 越 少 了 。 因 为 nanosleep() 是 POSIX 


标准 ， 而 且 不 会 使 用 信号 ， 所 以 相 较 于 sleep () 与 usleep1()， 新 的 程序 应 该 侦 好 
使 用 它 〈 或 者 下 -- 节 所 要 探讨 的 接口 )。 


以 一 个 高 级 的 方式 进行 休眠 
如 同 我们 至 今 探 讨 过 的 所 有 时 间 畏 数 ，POSIX 的 clock 系列 函数 提供 了 最 高 级 的 休 眼 
接口 : 

#include <time.hs> 


int clock nanosleep (clockid t clock igd, 
int flage, 
conast struct timespec *regq, 
Btruct timespec *rem)} 


clock_nanosleept{) 的 行为 类 似 于 nanosleep ()。 事 实 上 ， 此 调用 :; 


ret = nanosleep (&redgq, &rem); 
如 同 此 调用 : 
rEeEt clock nanosleep (CLOCE _REALTIME, 日， &redg, &rem}; 


差别 在 于 clock_id 与 flags 参数 。 前 者 用 于 指定 要 测量 的 时 间 来 源 。 多 数 的 时 间 
来 源 都 是 有 效 的 ， 但 是 你 0 了 调用 的 进程 的 CPU 时 钟 (例如 CLOCK- 
PROCESS_CPUTIME_ID)。 这 么 做 是 没有 意义 的 ， 因 为 此 调用 会 暂停 进程 的 执行 ， 

此 进程 时 间 停 止 增加 。 
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时 间 来 源 的 指定 取决 于 你 的 程序 休 虐 内 日 的 。 如 果 你 要 休眠 某 个 绝对 时 间 伍 ， 则 
CLOCK REALTIME 最 有 意义 ; 如 果 你 要 休眠 相对 的 时 间 量 ， 则 CLOCK_MONOTONIC 
绝对 是 理想 的 时 间 来 源 。 


flags 参数 可 以 是 TIMER_ABSTIME 或 0。 如 果 它 是 TIMER_ABSTIME, 则 req 所 
旨 定 的 值 会 被 视 为 绝对 值 而 非 相 对 值 。 这 解决 了 一 个 潜在 的 竞争 条 件 。 为 了 说 明 此 参数 , 让 
我 们 假设 有 一 个 进程 位 于 时 间 T,，, 想 休眠 到 时 间 T,。 进程 在 了, 调用 clock_gettime()， 
取得 了 当前 时 间 (T, ) 。 接 着 从 工 , 减 去 T,， 取 得 了 Y (会 被 传人 clock_nanosleep ())。 
然而 ， 取得 时 间 的 时 刻 与 进程 去 休眠 的 时 刻 之 间 已 经 过 去 了 某 个 时 间 旱 ，。 更 糟 的 征 ， 如 
果 进 程 被 安排 离开 处 理 器 、 遇 到 了 页 面 失误 或 者 其 他 类 似 的 事情 呢 ? 在 取得 当前 时 间 、 
计算 时 间 差 以 及 实际 进入 休眠 期间 往 往 会 存在 着 一 个 潜在 的 竞争 条 件 。 


TIMER_ABSTIME 标志 可 以 通过 让 进程 直接 指定 了 , 来 消除 竞争 条 件 。 内 核 会 暂停 访 
进程 ， 直 到 指定 的 时 间 来 源 到 达 T,。 如 果 指 定 的 时 间 来 源 的 当前 时 间 已 经 超过 Ti， 则 
此 调用 会 立即 返回 。 


让 我 们 来 看 看 相对 与 绝对 休眠 的 差异 。 下 面 的 例子 会 休眠 1.5 秘 : 


struct timespec ts = { .tv _ sec = 1, .tv nNnsec = SO0000000 }; 
int ret; 


ret = Clock nanosleep {CLOCK_MONOTONIC, 0, &ts, NULD); 
if fret)} 
perror ("clock nanosleep"}; 


相对 而 言 , 下 面 的 例子 会 休 眼 绝对 的 时 间 值 一 一 确切 的 1 秒 , 来 日 clock_gettime1() 
调用 针对 CLOCK_MONOTONIC 时 间 来 源 的 返回 值 : 


struct timespec ts; 
int ret; 


1* 从 现在 开始 我 们 想 要 休眠 1 秒 的 时 间 */ 
ret = cliock_ gettime ICLOCK MONOTONIC, &tsy; 
if {ret) 1 
perror ("clock_gett ime"}); 
return; 
} 


tas.tvy_sec 十 = 二; 
printf (We want to sleep until sec=%1ld nsec=$®1ld\n", 
ta.tv_Ssec, tsa.tv nSec}: 
ret = clock nanosleep (CLOCK MONOTONIC, TIMER ABSTIMLE, 
gts, NULL); 
i£f {ret} 
perror ("clock nanosleep"); 
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多 数 程序 只 需要 进行 相对 的 休眠， 因为 它们 的 休 腿 时 间 并 不 需 昌 非常 精确 。 然而， 有些 
实时 进程 有 非常 确切 的 时 序 要 求 ， 而 且 需 要 进行 绝对 的 休眠 来 避免 可 能 的 竞争 条 件 。 


以 可 移植 的 方式 进行 休 了 眶 
堪 在 召回 我 们 在 第 : 章 的 好 朋友 select 1(1): 
#include <svyas/select.h> 


int select {int n, 
fd set *readfds, 
fa set *writefds, 
fq set *exceptfda, 
Struct timeval *timeout},; 


如 第 二 世 所 述 , 以 亚 种 级 分 辩 率 进行 休眠 时 , 帮 演 虑 到 可 移植 性 , 可 以 使 用 select ()。 
民 久 以 米 ， 可 移植 的 Unix 程序 都 一 直 在 使 用 sleep() 米 提 出 它们 震 要 的 休眠 时 间 : 

usleep() 并 站 随处 可 用 ， 和 而 用 nanosleep() 疝 未 被 号 出 米 ，。 片 发 者 有 发现， 让 进 税 
进入 休 限 状态 时 ,， 若 将 0 传人 select1) 的 n, 将 NULL 传人 二 个 fd_set 指针 ,以 
及 将 所 需要 的 休 眼 时 间 传 入 timeout ， 就 是 -个 可 移植 而 且 有 效 的 做 法 。 


中 UL LIMEWw A | Ey | A 主人 站 ， 

上 入 滞 天 忆 = 『 
A el 局 忆 上 ECF far US 十 
SelLecL (0, NULT, NULL, NUTL， SLCw) ; 


如 果 考 虑 要 移植 到 较 旧 的 Unix 系统 ， 则 select() 可 能 林 是 你 的 最 佳 选 择 。 


超 限 运 行 

本 贡 所 探 寺 的 所 有 接口 保证 至 少 可 以 休眠 所 请 炒 的 时 间 ! 看 则 会 返回 错 途 代码 以 指出 此 
类 事 )。 所 请 求 的 延 志 时 间 科 有 过 去 ， 这 些 接 咒 绝 和 不 会 成 功 返 回 。 然 而 ， 间 隔 上 时间 比 所 
请 求 的 延 到 时 间 还 长 也 是 有 可 能 的 。 





此 现象 可 能 是 因为 简单 的 调度 行为 一 一 所 请 求 的 时 间 可 能 已 经 过 去 ， 而 出 肉 核 可 能 已 
经 准时 唤 散 进程 ， 但 是 调度 程序 可 能 已 经 选择 运行 不 同 的 任务 。 


和 然而， 还 存 仕 一 个 更 雇 结 肘 起 因 ， 定时 器 趋 限 运行 《rarer overrun)。 当 定时 器 的 粒 座 
比 所 请 求 的 时 间 间 隔 还 大 时 便 会 发 生 此 现象 。 举例 来 说 , 假 谈 系统 定时 器 的 时 钟 周期 县 
有 10 ms 的 时 间 同 隔 ， 而 县 有 -个 进程 请 求 广 1 ms 的 休眠 时 间 。 系 统 只 能 够 在 10 ms 
的 上 时间 间隔 (interval) 测量 时 间 并 响应 时 间 相 美 事件 (例如 晚 醒 一 个 休 肛 中 的 进程 )。 
如 果 进 程 发 出 休眠 请 求 时 ， 定 时 器 在 距离 - -个 时 钟 周 期 届满 前 1 ms 的 地 方 ， 则 一 切 相 





安 无 事 一 一 在 1 ms 中 ， 所 请 求 的 时 间 (1 ms) 将 过 去 ， 而 且 内 核 将 唤醒 进程 。 然 而 ， 
如 果 进 程 送出 休眠 请求 的 同时 ， 定 时 器 刚好 届满 一 个 周期 ， 进 穆 将 体 眼 额 外 的 9 ms! 

出 就是 将 有 9 次 的 1 ms 超 限 运行 。 平均 而 言 ,一 个 周期 为 X 的 定时 器 将 有 具有 X/2 的 超 
限 运行 率 。 

使 用 高 精确 度 的 时 间 来 源 ， 例 如 POSIX 时 钟 所 提供 的 那些 ， 以 及 较 高 值 的 HZ， 可 最 
小 化 定时 器 的 超 限 运转 。 


休眠 的 替代 方案 

如 果 可 能 ， 你 应 该 避免 休眠 。 通 党 你 无 法 避 爸 ， 堵 也 当天 系 特别 是 ， 如 果 你 的 程 
序 代码 的 修 卢 时 间 小 于 1 秒 。 然 而 ， 车 程序 代码 以 休 卢 来 忙碌 等 待 《busy-wait) 事件 ， 
通常 是 差劲 的 设计 。 在 一 个 文件 描述 符 上 阻挡 程序 代码 , 让 内核 处 理 休眠 与 唤醒 进程 的 
事宜 是 比较 好 的 做 法 。 进 程 在 一 个 循环 中 自 旋 (spinning) 直到 事件 抵达 的 做 法 可 以 悚 
换 成 内 核 阻挡 进程 的 执行 ， 只 在 有 需要 时 才 响 眼 它 。 


P= 

是 时 宣 

当 指 定 的 时 间 量 过 去 后 , 定时 器 提供 了 一 个 机 制 用 于 通知 进程 。 一 个 定时 器 到 期 之 前 的 时 
间 量 称 为 延迟 时 间 (delay) 或 者 到 期 时 间 (expirarion)。 内核 如 何 通 知 进 程 定时 器 已 到 期 
取决 于 定时 器 的 类 型 。Linux 内 核 提供 了 车 于 种 类 型 的 定时 器 ， 稍 后 我 们 将 一 一 -探究 。 





定时 器 之 所 以 有 用 ， 基 于 若干 理由 。 人 和 例子 包括 每 秒 刷新 屏幕 60 次 ,以 及 如 来 500 腕 秒 
之 后 仍然 持续 下 去 就 取消 未 决 的 事务 ， 


简单 的 警报 
alarm({) 古 虹 简单 的 定时 器 接口 ，: 

#include <uniastad.hy 

unsigned int alarm (unsigned int geconds); 
凋 用 此 函数 ,我 们 可 以 安排 在 真实 时 间 已 过 去 seconas 秒 后 , 将 一 个 STGALRM 信号 
递送 给 进行 调用 的 进程 。 如 果 有 一 个 之 前 所 安排 的 信号 悬而未决 , 则 此 调用 会 取消 该 区 
报 , 将 它 夫 换 成 刚才 所 请 求 的 警报 并 返回 之 前 的 警报 所 剩 下 的 秒 数 。 如 果 seconds 的 
值 为 0， 则 之 前 的 警报 (如果 有 ) 会 被 取消 ， 但 是 不 会 安排 新 的 警报 。 


要 成 功 使 用 此 函数 还 需要 替 STGALRM 信号 注册 一 个 信号 处 理 程序 (信号 与 信号 处 理 程 
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序 可 参考 前 一 章 所 做 的 说 时 )。 下 面 的 程序 代码 片段 会 注册 一 个 SIGALRM 处 理 程序 
alarm_handler() 以 及 替 5 秒 设 定 一 个 警报 : 

void alarm _ handler (En signum) 

{ 


Brintf ("Five Seconds passed! “nl):; 
} 


VOid func (void) 
signal STGALRM, alarm handler):; 
alarm 15}} 


Pause (); 


了 时间 间隔 定时 兹 
interval timer (时 间 间 隔 定 时 器 ) 系统 调用 自从 被 POSIX 标准 化 后 ， 首 次 出 现 干 
4.2BSD， 能 够 提供 比 alarm() 还 多 的 控制 


#include <Syea/time.h> 


int getitimer (ijnt which, 
struct itimerval *value); 


int setitimer (int which, 
conast Btruct itimerval *value, 
sgtruct itimerval *ovalue): 


interval timer 的 运作 如 辣 alarm()，, 但 是 可 以 选择 自动 重新 启动 它们 , 而且 可 运作 在 
下 面 其 中 一 种 模式 之 中 : 


ITIMER_ REAL 
测量 真实 时 间 。 当 所 指定 的 真实 时 间 值 已 过 去 ,内核 会 送出 一 个 SIGALRM 信号 
给 进程 。 

ITIMER_VIRTUAL 
只 会 在 进程 的 用 户 空 间 程序 代码 执行 时 递减 其 值 . 当 所 指定 的 进程 时 间 过 去 后 , 内 
核 会 送出 一 个 SIGVTALRM 信号 给 进程 。 

TTTMER_PROF 
会 在 进程 执行 时 以 及 内 核 替 进程 服务 时 (例如 进行 系统 调用 ) 递减 其 值 。 当 所 指定 
的 时 间 量 过 去 后 ， 内 核 会 送出 一 个 SIGPROF 信号 给 进程 。 此 模式 常会 与 
ITIMER_VIRTUAL 结合 ， 让 程序 可 以 测量 进程 所 耗 用 的 用 户 时 间 与 内 核 时 间 。 
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ITIMER_REAL 所 测量 的 时 间 如 同 alarm1), 另 两 种 模式 则 可 用 于 概要 分 析 {profiling )。 


itimerval 结构 人 允许 用 户 指定 时 间 量 直到 定时 器 到 期 为 止 以 及 指定 到 期 时 间 , 这 让 你 
能 够 以 指定 的 到 期 时 间 重 新 启动 定时 北 : 
atruct itimerval 1 
struct timeval it interval; /* next wvalue */ 


struct timeval it value; /i* current value */ 
}} 


如 稍 早 所 述 ，timeval 结构 可 以 提供 和 做 秒 级 分 辩 率 : 


struct timeval { 
long tv_ gec;} /* BeEconde */ 
long tv usec; /* microgeconds */ 
上 
setitimer () 会 使 用 it_value 所 指定 的 到 期 时 间 来 启动 一 个 which 类 型 的 定时 
冬 。 一 且 it_value 所 指定 的 时 间 过 去 后 , 内核 会 使 用 it_interval 所 提供 的 时 间 
重新 启动 该 定时 器 。 因 此 ，it_value 是 当前 定时 器 上 剩 下 的 时 间 。 一 旦 it_value 
的 值 为 零 时 ， 它 会 被 设 定 为 让 _interval。，。 如 果 定 时 器 到 期 ， 而 且 it_interval 
的 值 为 0, 则 不 会 重新 启动 该 定时 器 。 同样 地 ， 如果 一 个 活动 中 的 定时 器 的 it_value 
被 设 为 0， 则 定时 器 会 停止 运行 ， 而 且 不 会 被 重新 启动 。 
如 条 ovalue 的 值 不 是 NULL， 则 which 类 型 的 时 间 间 隔 定 时 器 先前 的 值 会 被 返回 。 
getitimer() 会 返回 which 类 型 的 了 时间 间隔 定时 器 当前 的 值 。 
执行 成 功 时 , 这 两 个 调用 都 会 返回 0; 发 生 错 误 时 , 则 会 返回 -1, 在 此 情况 下 , errno 
会 被 设 定 为 下 面 其 中 一 个 值 : 
DEFAULT 
value 或 ovalue 是 一 小 无 效 的 指针 。 


EINVAL 
which 不 是 一 个 有 效 的 时 间 间 隔 定时 器 类 型 。 
F 面 的 程序 代码 片段 会 创建 一 个 SIGALRM 信号 处 理 程 序 (同样 参见 第 九 章 )， 接 着 会 
以 5 秒 的 初始 到 期 时 间 来 启动 一 个 时 间 间 隔 定时 器 ， 随 之 而 来 的 是 1 种 的 时 间 间 隔 : 
vold alarm_ handler {int signo) 
printft ("Timer hitl\m").; 


了 


vold 于 DC (void} 1 
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struct itimerval delay; 
jint ret:; 


Sigrnal (SIGALRM, alarm handler)}; 


delay .it valye.ty_ sec = 5; 
delay.it_value.tv_usec = 0; 


delay .it_ interval .ty_sec 1: 

delay.it_interval .tv usec = 0; 

ret = setitimer (ITIMER_ REAL, &delay, NULL).; 

if tret) + 
perror ("setitimer"):; 
return; 

Pause {); 

] 
有 些 Unix 系统 会 通过 SIGALRM 来 实现 sleep() 与 usleep() 一 一 显然 ,alarm1() 


与 setitimer() 会 使 用 SIGALRM。 因 此 ， 程 序 设 计 者 必须 小 心 不 要 重复 调用 这 些 
函数 , 否则 结果 是 未 定义 的 。 如 果 只 是 短暂 等 待 , 程序 设计 者 应 该 使 用 nanosleep()， 
按照 POSIX 的 规定 将 不 会 使 用 信和 号。 如 果 使 用 定时 器 ,程序 设计 者 应 该 使 用 


setitimert) 或 alarm!()., 


高 级 定时 兹 
最 强大 的 定时 器 接口 来 自 POSIX 时 钟 系列 。 
如 果 使 用 的 是 POSIX 基于 时 钟 的 定时 器 ， 则 创建 、 初 始 化 以 及 删除 一 个 定时 器 的 行动 


被 分 为 三 个 不 同 的 函数 :timer_create(}) (创建 定 时 器 )}, timer_settime{) ( 初 
始 化 定时 器 ) 以 及 timer_delete|() (销毁 它 )。 


| 


g POSIX 时 钟 系列 的 定时 器 接口 无 疑 是 最 高 级 的 接口 ,但 也 是 最 新 (因此 最 不 具 可 
。 移植 性 ) 而 且 几 法 最 复杂 的 接口 。 如 果 简 单 性 或 可 移植 性 是 主要 目标 ， 则 


”setitimer() 很 有 可 能 是 更 好 的 选择 。 


创建 一 个 定时 痢 
timer_create{) 可 用 于 创建 一 个 定时 背 : 


#include <signal.h> 
#include <time.hy> 


int timer create (clockid t clockid, 
Btruct sigevent *evp, 
timer 七 *timerid}; 
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一 次 成 功 的 timer_createl() 调用 会 创建 一 个 与 POSIX 时 钟 clockiq 相关 联 的 新 
定时 器 , 将 独一无二 的 定时 器 标识 符 存 入 timeriqd 并 且 返 回 0。 此 调用 只 会 替 定 时 器 
的 运行 设置 坏 境 ， 实 际 上 任何 事 部 不 会 发 生 ， 直 到 定时 器 被 启动 ， 如 下 一 市 所 示 。 


下 面 的 范例 会 创建 一 个 新 的 定时 器 CLOCK_PROCESS_CPUTIME_ID 的 POSIX 时 钟 ， 
以 将 定时 器 的 标识 符 存 入 timer: 


timer 七 timer: 
i1nt ret: 


ret = timer create {CLOCK PROCESS CPUTIME ID， 
NULL, 
kt imer): 
if (ret) 
perror ("timer_create"). 
执行 失败 时 ， 此 调用 会 返回 -1, 不 定义 timerid, 而 且 此 调用 会 将 errno 议定 为 下 
面 其 中 一 个 值 ， 


EAGAIN 
系统 的 资源 不 足以 完成 此 请 求 。 

EINVAL 
clockiq 指定 了 无 效 的 POSIX 时 钟 。 

ENOTSUP 
虽然 clockia 指定 了 有 效 的 POSIX 时 钟 , 但 是 系统 并 不 支持 使 用 该 时 钟 的 定时 
比 。POSIX 保证 所 有 实现 均 支 持 使 用 CLOCK_REALTIME 时 钟 的 定时 器 。 至 于 是 
宪 支 持 其 他 时 钟 ， 则 由 实现 自行 决定 。 


evp 参数 ， 如 果 非 NULL 值 ， 用 于 定义 当 定时 器 到 期 时 所 发 生 的 异步 通知 。 此 结构 定 
义 于 头 文件 <signal .n> 中 。 它 的 内 容 对 程序 设计 者 而 言 应 该 是 不 透明 的 ， 但 是 
它 至 少 具有 以 下 字段 ， 


#include <signal.h> 


Btruct gigevent 1 
uniocon sgigval sigev value; 
int sigev signo; 
int sigev notify; 
void (*sigev notify function}) (union sigval); 
Pthread attr 七 *sigev notify attributes; 
}; 


union sigval 1{ 
int gival int; 
void *gival ptr; 
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wy 一 个 定时 器 到 期 时 , 相 较 于 内 核 通知 进程 的 方式 , POSIX 基于 时 钟 的 定时 器 可 以 提供 
更 多 的 控制 权 , 它 允许 进程 指定 内 核 将 送出 何 种 信号 , 甚至 允许 内 核 派 生 一 个 线程 并 
是 执行 一 个 函数 以 响应 定时 器 到 期 的 事实 ,一 个 进程 可 通过 sigev_notify 指定 当 定 
时 器 到 期 的 行为 ， 它 必须 是 下 面 其 中 一 个 值 ; 


SIGEV_NONE 
一 个 空 的 通知 。 当 定时 器 到 期 ， 不 会 有 任何 事 发 生 。 
SIGEV_SIGNAL 


当 定 时 器 到 期 ， 内 核 会 将 sigev_signo 所 指定 的 信号 传送 给 进程 。 在 信号 处 理 
程序 中 ，si_value 会 被 设 定 为 sigev_value。 


当 定 时 器 到 期 内核 会 (在 此 进程 内 ) 派生 一 个 新 的 线程 ， 并且 让 它 执 行 
sigev_notify_function, 传人 sigev_value 作为 唯 的 一 参数 。 从 此 国 数 
返回 后 , 线程 会 终止 。 如 果 sigev_notify_attributes 的 值 不 是 NULL， 则 
所 提供 的 pthread_attr_t 结构 用 十 定义 新 线程 的 行为 。 
如 果 evp 的 值 是 NULL (就 像 我 们 前 面 的 例子 )， 则 所 设置 的 定时 器 到 期 通知 宛如 
sigev_notify 的 值 是 SIGEV_SIGNAL、sigev_signo 的 值 是 STIGALRM 以 及 
sigev_value 的 值 是 定时 器 的 标识 符 。 因 此 , 在 默认 情况 下 , 这 些 定时 痊 的 通知 方式 类 
似 于 POSIX 的 时 间 间 隔 定 时 器 。 然 而 ， 通 过 日 定义 ， 它 们 可 以 做 的 事 还 有 很 多 、 很 多 |! 


下 面 的 例子 会 创建 一 个 基于 CLOCK_REALTIME 的 定时 器 。 当 定时 器 到 期 时 ， 内 核 将 
送出 SIGUSR1 信号 并 把 si_value 设 定 成 存储 定时 器 标识 符 的 地 址 : 


struct slaevent ewvp: 
timer_t timer: 
jnt ret; 


evp.Sigev_value.sival ptr = &timer; 
Evp.Sigev notify = SIGEV_SIGNAL; 
evp.sigev_signo = SIGUSR!]; 
ret = timer create {CLOCE REALTIME, 
&EVD, 
&timer); 
if {ret) 
BeErreor ("timer_create")}:; 


启动 一 个 定时 器 
timer_create() 所 创建 的 定时 器 并 未 启动 ,要 将 它 关 联 到 一 个 到 期 时 间 以 及 启动 时 
钟 周期 ， 可 以 使 用 timer_settime(): 
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#inciude <time.h> 


int timer settime {timer 七 timerid, 
int flags, 
Const struct timerspec *value, 
Batruct itimerapec *ovalue): 


一 次 成 功 的 timer_settime() 调用 会 使 用 到 期 时 间 valuet 这 是 一 个 itimerspec 
结构 ) 启动 timeriqd 所 指定 的 定时 器 : 
gtruct itimerspec | 
struct timespec it interval; /* next value */ 
struct timespec it_wvalue; /* current value */ 
}; 
如 同 setitimer()，it_value 用 于 指定 当前 的 定时 器 到 期 时 间 。 当 定时 颖 到 期 ， 
it_value 的 值 会 被 更 新 成 it_interval 的 值 , 如 果 it_interval 的 值 为 0, 则 
定时 器 不 是 一 个 时 间 间 隔 定时 器 ， 一 旦 it_value 到 期 就 会 回 到 未 启动 状态 。 


如 稍 早 所 示 ，timespec 结构 提供 了 纳 秒 级 分 辩 率 ， 


gtruct timespec { 
time t ty Bec; /i* geconde 二/ 
long tw nsec; /* nanoseconde */ 
}; 
如 果 flags 的 值 为 TIMER_ABSTIME， 则 value 所 指定 的 时 间 值 会 被 解读 成 绝对 值 
(此 值 默 认 的 解读 方式 为 相对 于 当前 的 时 间 )。 这 个 经 修改 的 行为 可 避免 取得 当前 时 间 、 
计算 “该 时 间 ” 与 “所 期 望 的 未 来 时 间 ” 的 相对 差额 以 及 启动 定时 器 期 间 造 成 竞争 条 件 。 
细节 可 参考 “以 一 个 高 级 的 方式 进行 休 眶 ”一 市 。 
如 果 ovalue 的 值 不 是 NULL， 则 之 前 的 定时 器 到 期 时 间 会 被 存 入 其 所 提供 的 
itimerspec。 如 果 定 时 器 之 前 处 在 未 启动 状态 ， 则 此 结构 的 成 员 全 都 会 被 设 定 为 0。 
使 用 稍 早 由 上 imer_createl() 初始 化 的 timer 值 ,下 面 的 例子 可 以 创建 一 个 每 秒 到 
期 一 次 的 周期 性 (periodic ) 定时 三 : 


struct itimerspec ta; 
jnt ret: 


ts.it_ interval.tvw sec = 1: 


ts.it interval,.tv nsec = 0: 

ts.1it value.tv Sec = 工 ; 

ts,.it value.twv nsec 0; 

ret = timer settime (timer, 总， &ts, NULL}): 
it (ret) 


perror ("timer settime"): 


eh 
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取得 一 个 定时 器 的 到 期 时 间 
你 可 以 在 任何 时 刻 由 timer_gettime() 取得 一 个 定时 器 的 到 期 时 间 而 不 会 重 置 它 : 
#inceclude <time,. hs 


int timer gettime {timer 七 timerid, 
struct itimeraspec *value); 
一 次 成 功 的 timer_agettime() 调用 会 将 timerigd 所 指定 的 定时 器 的 到 期 时 间 存 人 
value 所 指定 的 结构 并 且 返 回 0。 执 行 失 败 时 ， 些 调用 会 返回 -1 并 且 将 errfne 议定 
为 下 面 其 中 一 个 值 : 


EFALUL'T 

value 是 一 个 无 效 的 指针 。 
EINVAL 

timerid 是 一 个 无 效 的 定时 器 。 
例如 ; 


struct itimerspec ts; 
jt Tet: 


ret = timer_gettime (timer, &ts}); 
if (ret) 
Perror {timer _ gettime"); 
else { 
printf ("current sec=%]ld nsec=$1d\n", 
ts,.it value.tv sec, ts.,it_value,.tv _ nsec); 
Printf ("next sec=$ld nasec=%1d\n", 
ts.it _ interval .tv sec, ts.it _ interval.tv nsec):; 


取得 一 个 定时 器 的 超 限 运行 次 数 

POSIX 定义 了 一 个 接口 用 于 确定 指定 定时 左上 发 生 超 限 运 行 的 次 数 (如 来 有 ): 
#include <time.h> 
int timer getoverrun (timer t timerid); 

执行 成 功 上 时 ，t imer_getoverrun() 会 返回 定 肘 器 初次 到 期 与 通知 进程 (例如 通过 


信号 ) 定时 器 已 到 期 之 间 额 外 发 生 的 定时 器 到 期 次 数 。 举 例 来 说 , 在 我 们 之 前 的 例子 中 ， 
一 个 1 ms 的 定时 器 运行 了 10 ms， 则 此 调用 会 返回 9。 


如 果 超 限 运 行 的 次 数 等 于 或 大 于 DELAYTIMER_MAX , 则 此 调用 会 返回 DELAYTIMER_MAX。 
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执行 失败 时 ， 此 函数 会 返回 -1 并 将 errno 设 定 为 EINVAL， 这 个 唯一 的 错误 情况 代 
表 timerid 指定 了 无 效 的 定时 次 。 


例如 
int ret; 


ret = timer _ getoverrun (timer): 
if tret == -1) 
perror ("timer_getoverrun"}): 
lse if (ret == 0Q) 
printf ff"no overTun‘\n).: 
全 | SE 
printf {"$%d overrun(s} \n", ret}):; 


删除 一 个 定时 器 
要 删除 一 个 定时 冀 很 容易 : 
#include <time.h> 
int timer delete (timer t timerid); 
-次 成 功 的 Limer_delete({) 调用 会 销毁 关联 到 tijmerid 的 定时 器 并 且 返 回 0。 执 
行 失败 时 ， 此 调用 会 返回 -1 并 将 errno 设 定 为 EINVAL， 这 个 唯一 的 错误 情况 代表 
timerid 不 是 一 个 有 效 的 定时 器 。 
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GNU Compiler Collection ( 常 简写 为 GCC) 对 C 语言 做 了 许多 扩展 ， 其 中 有 一 些 已 被 
证 实 对 系统 程序 设计 者 具有 特殊 的 价值 。 本 附录 将 介绍 的 C 语言 扩展 主要 是 让 程序 设 
计 者 可 以 把 关于 程序 代码 的 行为 与 用 法 的 额外 信息 提供 给 编译 器 ,编译 器 会 利用 此 信息 
产生 更 有 效 的 机 器 码 。 其 他 的 扩展 用 于 填补 C 程序 语言 的 缺口 ， 特别 是 较 低 级 的 部 分 。 


GCC 所 提供 的 大 二 扩展 现在 已 经 存在 于 最 新 的 C 标准 ISO C99 中 。 有些 扩 展 功 能 与 它 
们 的 C99 表亲 相似 ,但 是 ISO C99 所 实现 的 其 他 扩展 则 颇 为 不 同 。 新 的 程序 代码 应 读 
使 用 这 些 功能 的 ISO C99 变 体 版 本 。 本 附录 不 会 说 明 此 类 扩展 , 我 们 只 会 探讨 GCC 特 
有 的 扩展 。 


GNUC 


GCC 所 支持 的 C 语言 称 为 GNU C。20 世纪 90 年 代 ，GNU C 填补 了 C 语言 苦于 的 缺 
口 ,提供 了 复 淋 变量 (complex variable ) , 霉 长 度数 组 ( (zero-length array) , 内 嵌 (inline) 

国 数 以 及 命名 初始 器 (named initializer) 。 但 经 过 了 将 近 十 年 ，C 语言 终于 升级 ， 并 进 
行 ISO C99 的 标准 化 , GNU C 的 扩展 此 得 无 关 紧要 。 尽管 如 此 , GNU C 仍 继续 提供 有 
用 的 功能 ， 而 且 许 多 Linux 程序 设计 者 仍 在 他 们 与 C90 或 C99 兼容 的 程序 代码 中 使 
用 GNUC 的 扩展 。 


在 完全 以 GNU C 写成 的 程序 中 ，Linux 内 核 是 广为人知 的 一 个 例子 。 然而 ， 最 近 Intel 
已 投入 工程 方面 的 努力 ， 让 Intel C Compiler (ICC) 能 够 了 解 内 核 所 用 到 GNU C 扩 
展 。 因 此， 现在 越 来 越 少 采 用 GCC 特有 的 扩展 了 _ 
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内 崩 函 数 

编译 器 会 把 一 个 “内 幅 ”(inline) 函数 的 所 有 程序 代码 复制 到 该 函数 被 调用 的 位 首 上 。 
所 以 不 是 将 函数 存储 在 外 部 并 在 它 每 次 被 调用 时 跳 到 它 那 里 运行 ,而 是 直接 运行 畏 数 的 
内 容 。 这 样 的 行为 可 以 省 去 函数 调用 的 开销 ,而 且 可 以 在 调用 的 位 置 上 进行 可 能 的 优化 ， 
因为 编译 器 可 以 同时 优化 调用 者 (caller) 与 被 调用 者 (callee)。 如 来 在 调用 的 位 是 上 伟 
递 给 函数 的 参数 为 常量 ， 则 后 者 特别 有 效 。 当 然 , 将 一 个 函数 复制 到 每 个 调用 它 的 位 置 
上 会 对 程序 代码 的 大 小 造成 不 利 的 影响 。 因 此 , 如 果 国 数 既 小 又 向 单 或 者 并 未 在 许多 不 
同 的 位 置 上 被 调用 ， 则 可 以 采取 内 骸 的 方式 。 


GCC 已 经 支持 inline 关键 字 许 多 年 ， 此 关键 字 用 于 指示 编译 器 联 入 指定 的 国 数 。 后 
来 C99 才 将 此 关键 字 标 准 化 : 
static inline int feos (vold}y { A* .,.. /A } 


然而 ， 就 技术 而 言 ， 此 关键 字 是 一 个 提示 建议 编译 器 代入 指定 的 国 数 。GCC 还 提 
供 了 一 个 扩展 ， 用 于 指示 编译 器 务必 给 入 指定 有 的 尔 数 ， 





static inline _ _attribute _ ilalways_inline}y}) int foe 【DIS [ /* ... */ 1] 


程序 中 最 可 能 使 用 内 租 函 数 的 地 方 就 是 预 处理 器 宏 (preprocessor macro)。 在 GCC 中 ， 
内 寿 函 数 的 执行 和 宏一 样 ， 不 过 还 会 进行 数据 类 型 的 检查 。 举 例 来 说 ， 如 下 的 宏 ; 


#deilne maxiab) ({ =b ?a :+; 1}) 


可 以 改 用 相应 的 内 概 国 数 ， 


static inline max (int a, int b) 


{ 
if ta > kb) 
return a; 
Ceturn bb; 
} 


程序 设计 者 往往 会 过 度 使 用 内 艇 轴 数 。 国 数 调 用 的 开销 在 革 现 和 代 的 洪 构 上 一 一 尤其 十 
x86 一 一 非常 非常 的 低 。 具 有 最 关键 的 图 数 才 应 该 考虑 此 问题 ! 


禁止 内 赔 


在 最 积极 的 优化 模式 中 ，GCC 会 自动 选择 看 来 适合 典 入 的 函数 并 且 嵌 入 它们 。 这 通常 
是 一 个 好 主意 ， 但 有 时 程序 设计 者 知道 ， 菜 个 函数 如 果 进 行内 嵌 会 有 执行 错误 的 情况 。 
一 个 可 能 的 例子 就 是 使 用 _ _builtin_return_address (本 附录 稍 后 会 说 明 ) 的 
时 候 。 要 禁止 肉 戏 ， 可 以 使 用 noeinline 关键 字 : 
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__attribute. tinoinline}yy int foo lveid) 1 /* » 


“ 纯 ”(pure) 国 数 就 是 一 个 无 任何 影响 的 国 数 ， 它 的 返回 值 仅 反映 了 国 数 的 参数 或 非 易 
失 性 的 (nonvolatile) 全 局 变量 。 任 何 参数 或 全 局 变量 的 访问 权限 必须 是 仅 供 读 取 。 储 
环 的 优化 以 及 子 表 达 式 的 消除 则 可 以 应 用 至 此 类 函数 。 要 标示 纯 销 数 可 使 用 Pure 关 
刍 字 ， 


attribute _ ({(pure}}) int foo (int val} { /* ... */ } 


strlen{) 是 一 个 常见 的 例子 。 输入 相同 时 , 即使 多 次 调用 此 函数 , 其 返回 值 不 变 ， 
此 可 以 放 在 循环 外 ， 而 且 调 用 一 次 就 行 了 。 例 如 ， 考 虑 下 面 的 程序 代码 : 


/* 逐 字符 地 以 大 写 形式 输出 “p” 中 每 个 字母 


for {1 = 0; i < Strlen kB L++) 
printf {"%®c", toupper (pli]}}; 
如 果 编 译 器 不 知道 strlen( 一 个 纯 冰 数 ， 则 它 会 在 每 次 循环 中 调用 该 函数 1 


如 果 strlen{) 被 标记 成 纯 国 数 ， 聪 明 的 程序 设计 者 一 一 以 及 编译 右 一 一 将 会 写 出 
或 产生 出 如 下 有 时 程序 代码 : 

Siz2e t lJen; 

len = strlen {(p}; 


for {i = 0; i < len: 1+4+1 
Drirntf ("sc", toupper (p[1]}}: 


顺便 一 提 ， 更 聪明 的 程序 设计 者 (例如 本 书 的 读者 ) 会 写 出 如 下 的 程序 代码 ; 
while (*p)} 
printf ("Sc", toupper (l*p++)); 
纯 国 数 返 回 voia 是 不 合法 的 ， 而 且 的 确 毫 无 意义 ， 因 为 返回 值 古 此 类 函数 的 唯一 日 
的 。 


FE -A 

常量 函数 

“第 量 ”(constant) 国 数 是 纯 国 数 更 严格 的 一 种 变 体 。 此 类 国 数 无 法 访问 全 局 变量 ， 而 
且 无 法 以 指针 作为 参数 。 因 此 , 常量 国 数 的 返回 值 只 反映 了 以 值 传递 的 参数 。 pi 
可 能 进行 的 额外 优化 动作 也 可 能 应 用 于 此 类 函数 上 。 数 学 (math) 函数 ， 例如 abs ! 

便 是 常量 函数 的 一 个 例子 (假设 它们 不 会 保存 状态 或 是 以 其 他 方式 在 0 
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脚 )。 要 标记 常数 函数 可 以 使 用 const 关键 字 : 
__attrikbute__ ({constL}) int foo (In valy tt A* ... /1 


如 同 纯 函 数 ， 让 一 个 常量 函数 返回 void 党 无 意义 。 


无 返回 值 的 函数 
如 果 一 个 国 数 没有 返回 值 一 一 或 许 是 因为 它 会 固定 调用 exit (} ,程序 设计 者 可 以 使 
用 noreturn 关键 字 标 记 该 函数 ， 让 编 详 器 知道 此 事实 ， 


attripute__ [i{noreturn}) void foo (int waly { /* ... */ ] 


于 是 , 编译 器 可 以 进行 额外 的 优化 动作 , 因为 它 知道 在 任何 情况 下 调用 该 函数 都 不 会 有 
返回 值 。 此 类 函数 返回 voia 以 外 的 任何 值 皆 毫 无 意义 。 


分 配 内 存 的 函数 


如 果 一 个 函数 所 返回 的 指针 绝对 不 可 能 是 现 有 内 存 分 配 的 别名 ( 注 1) 一 一 这 几乎 可 确 
定 古 因为 该 藻 数 刚 完 成 新 的 内 存 分 配 并 返回 指 丫 它 的 指针 ， 程 序 设 计 者 可 以 使 用 
malloc 关键 字 来 表示 该 冰 数 ， 于 是 编译 如 可 以 对 该 冰 数 进行 适当 的 优化 动作 ; 


__attribute__ {({({malloc})}) void * get_page {voiqd) 


{ 


nt pagde_sli2e; 


Bage_sl2Ze = getpagesizZe (}: 
it page_size <= 0) 
return NULL: 


return malloc (page_ Size).; 


注 ] 现 有 内 存 分 配 的 别名 意味 着 有 两 个 或 多 个 指针 变量 指向 同一 个 内 在 地址 , 这 可 能 擎 因 于 
一 些小 问题 (例如 将 一 个 指针 赋值 给 另 一 个 指针 ), 也 可 能 营 因 于 一 些 较 复 杂 .、 较 不 明显 
的 问题 。 如 票 一 个 函数 所 返回 的 是 刚 分 配 的 由 人 疗 空 间 的 地 址 .就 不 应 该 存在 指向 相同 地 
址 的 其 他 指针 。 
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强迫 调用 者 检查 返回 值 


warn_unusea_result 属性 不 是 优化 动作 ， 而 是 一 个 程序 设计 辅助 工具 ， 用 二 指示 
编译 器 ， 当 函数 的 返回 值 未 被 存储 或 者 未 被 用 在 条 件 语 句 中 时 产生 警告 信息 : 


attribute _ [{warn_unused result}) int feo 【we { A/* ,,.. */ | 


当 一 个 国 数 的 返回 值 特别 重要 时 , 这 让 程序 设计 者 得 以 确保 所 有 调用 者 (caller) 帮会 检 
查 与 处 理 米 自 此 饥 数 的 返回 值 。 当 函数 具有 重要 但 是 常 被 忽略 的 返回 从 时 ， 例 如 
reaqg{)， 便 可 以 使 用 此 属性 。 此 类 国 数 不 能 返回 void，。 


将 函数 标记 为 已 废弃 
deprecated 属性 用 于 指示 编译 器 ， 在 指定 函数 被 调用 时 在 调用 该 支 国 数 的 位 置 上 产生 
一 个 警告 信息 ， 


attribute ( {deprecated})) void foo tvoid) 1 /* ... /1 


这 可 协助 程序 设计 者 放弃 已 被 废弃 和 过 时 的 接口 。 


将 函数 标记 为 已 使 用 
有 时， 对 于 特殊 国 数 的 调用 编译 器 是 看 不 到 程序 代码 的 。 以 useqa 属性 标记 一 个 函数 ， 
可 提示 编译 器 ， 程序 已 使 用 该 函数 ， 尽 管 看 起 来 似乎 从 未 引用 读 函 数 : 


static attribute_ _ tl{(used}) void foo (void) {1 /* ... */ |} 


编译 器 会 因此 而 输出 作为 结果 的 汇编 语言 ， 而 且 不 会 显示 关于 国 数 未 使 用 的 赛 各 
如 果 一 个 静态 函数 仅 被 调用 自 手 写 的 汇编 程序 代码 ， 便 可 以 使 用 此 属性。 一 般 情 这 
若 编译 器 不 知道 有 任何 调用 ， 则 会 产生 警告 信息 并 对 该 图 数 进行 可 能 的 优化 。 


将 函数 或 参数 标记 为 未 使 用 


unusea 属性 用 于 提示 编译 器 指定 的 函数 或 国 数 参 数 未 使 用 并 提示 它 不 要 发 出 任何 相应 
的 警告 信息 : 


int foo (long __attribute _ ((unused}) value) { /* ... */ } 


妇 果 你 以 -WW 或 -Wunuse9 进行 编译 ， 而 且 你 re 但 是 你 侦 
尔 会 使 用 必须 符合 预定 特征 (predetermined signature) 的 尔 数 (第 见于 事件 驱动 GUI 
程序 设计 或 信号 处 理 程序 )， 便 可 以 使 用 此 属性 。 
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打包 结构 

packegd 属性 用 于 提示 编译 器 ,应 该 尽 可 能 以 最 少量 的 空间 将 一 个 数据 类 型 或 变量 打包 
(pack) 进 内 存 , 这 可 能 会 导致 无 法 符合 对 齐 的 需求 。 如 果 此 属性 在 struct 或 union 
上 被 指定 ， 则 其 所 有 的 变量 丝 会 被 打包 进 内 存 。 如 果 只 对 一 个 变量 指定 此 上 属性， 则 只 有 
特定 的 对 象 会 被 打包 进 内 存 。 


如 下 的 定义 会 将 结构 中 的 所 有 变量 打包 进 最 少量 的 内 存 空间 : 
struct _ _attribute__ ipacked})}}) foo {1 ... +; 


举例 来 说 ， 一 个 结构 中 包含 了 一 个 char 且 后 面 跟着 一 个 int ,但 是 你 很 有 可 能 会 发 
现 ， 对 齐 内 存 地 址 的 整数 并 未 紧 跟 在 char 后 面 , 例如 在 3 个 字 市 之 后 。 编 译 器 为 了 对 
齐 变量 ,在 char 与 int 之 间 择 入 了 未 使 用 的 填充 字 市 。 一 个 被 打包 进 内 存 的 结构 缺 
少 填充 字 节 ， 因 此 所 耗 用 的 内 存 比 较 少 ， 但 是 无 法 符合 架构 的 对 齐 需 求 。 


7TTz .aa 
扩大 变量 的 对 齐 边 界 
除了 充 许 变量 的 打包 ,GCC 还 多 许 程序 设计 者 为 给 定 的 变量 指定 一 个 最 小 的 对 齐 边 乔 。 
于 是 GCC 至 少 会 将 指定 的 变量 对 齐 此 值 ， 对 照 于 架构 和 ABI 所 规定 的 最 小 对 齐 需 求 。 
例如 ,下面 这 条 语句 以 32 B 的 最 小 对 齐 边 界 (对 照 于 具有 32 位 整数 的 机 器 上 4 B 的 典 
型 对 齐 边 界 ) 来 声明 一 个 名 为 beard_length 的 整数 。 


int beard _ length __atlribute__ lialioned 【32))) = 0:; 


强行 设 定数 据 类 型 的 对 齐 边界 通常 仅 用 于 处 理 对 齐 需 求 大 于 架构 本 身 的 硬件 ,或 是 当 你 
手动 混合 C 和 汇编 代码 ， 而 你 想 使 用 需要 特别 对 齐 边界 的 指令 时 。 一 个 例子 是 为 存储 
在 处 理 器 缓存 线 上 的 常用 变量 使 用 对 齐 功能 以 便 优 化 缓存 行为 。Linux 内 核 便 会 利用 此 
技术 。 


指定 最 小 对 齐 边界 的 另 一 种 做 法 是 ,你 可 以 要 求 GCC 将 指定 数据 类 型 对 齐 任何 数据 类 
型 曾 用 过 的 最 大 的 最 小 对 齐 边 性。 例如 ,下 面 这 道 指 令 会 提示 GCC 将 parrot_height 
对 齐 它 曾 用 过 的 最 大 对 齐 边 界 ， 而 这 可 能 是 double 的 对 齐 边 界 : 


short parrot_height __atltribute _ {laligned}})} = 5; 
这 一 决定 通 沼 涉及 空间 /时间 的 权衡 ; 以 此 方式 对 齐 变量 会 耗 用 较 多 的 宇 间 , 但 是 对 它 
们 进行 复制 (以 及 其 他 复杂 的 操作 ) 会 比较 快 , 因为 编译 性 可 以 发 出 处 理 最 大 内 存 数量 
的 机 器 指 令 。 
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we 


各 种 架构 或 系统 的 工具 链 可 能 会 砚 变 量 的 对 齐 边 界 加 上 最 大 限额 。 例 如 ,在 亲 些 Linux 
架构 上 , 链接 器 (linker) 无 法 认 出 超出 默认 值 的 对 齐 边界 。 在 此 情况 下 , 使 用 此 关键 字 
所 提供 的 对 齐 边界 会 被 转换 成 所 允许 的 最 小 对 齐 边界 。 举 例 来 说 , 如 果 你 所 要 求 的 是 32 
字 节 的 对 齐 边界 ， 但 是 系统 链接 器 的 对 齐 边界 不 可 以 超过 8 个 字 节 ， 于 是 变量 将 对 齐 
8 个 字 二 的 边 客 。 


三 | 
将 全 局 变量 放 入 寄存 疝 
GCC 允许 程序 设计 者 将 全 局 变量 放 人 特定 的 机 器 寄存 器 ,于 是 变量 在 程序 执行 期 间 会 
驻 留 于 该 处 。 GCC 将 此 类 变量 称 为 全 局 寄存 器 变量 (global regisier variables)，。 





设 定 的 语法 党 要 程序 设计 者 指定 机 器 寄存 絮 。 下 向 的 例子 使 用 的 是 ebx: 


register int *foo asm ("ebx"); 


程序 设计 者 必须 选择 不 会 对 国 数 造 成 影响 的 变量 :也 就 是 所 选用 的 变量 必须 可 供 局 部 国 
数 使 用 ， 可 存储 和 恢复 函数 调用 的 调用 ， 以 及 不 得 指定 架构 或 操作 系统 AB1 所 使 用 的 
特殊 用 途 寄 人 存 器 。 如 果 寄 人 存 器 选用 不 当 , 编 详 器 将 产生 警告 信息 ; 如 采 否 人 存 普选 用 适当 
一 一 此 例 所 使 用 的 ebx 适用 于 x86 架构 ， 编 谋 器 将 会 停止 使 用 寄存 器 本 身 。 

如 时 变 量 芝 被 使 用 ,此 类 优化 动作 可 提供 巨大 的 性 能 提升 。 虚 拟 机 便 是 一 个 好 例 了 于 。 例 


如 ,将 存储 虚拟 堆栈 帧 指针 的 变量 放 入 寄存 器 会 获得 相当 大 的 增益 。 男 一 方面 ， 如 果 染 
构 本 来 就 极 需要 使 用 寄存 器 (如 x86 架构 )， 则 此 优化 动作 毫 无 意义 。 


全 局 寄存 如 变量 无 法 用 于 信号 处 理 程 序 或 供 一 个 以 上 的 线程 使 用 ,它们 也 无 法 有 初始 值 
因为 不 存在 任何 机 制 让 站 容 全 局 寄存 器 变量 应 该 在 任 
何 函 数 定义 之 前 声明 ，。 


分 支 注释 
GCC 人 完 许 程序 设计 者 注释 一 个 表达 式 的 预期 值 一 一 例如 , 提示 编译 器 某 个 条 件 语 名 是 
否 有 可 能 为 真 或 假 。 于 是 GCC 可 以 重新 安排 执行 块 ， 以 及 进行 其 他 的 优化 动作 来 改善 
条 件 分 支 的 性 能 。 


用 于 分 文 和 注释 的 GCC 语法 相当 难看 。 为 了 让 分 支 注释 能 够 顺眼 一 点 ， 我 们 会 使 用 如 下 


tdefine likelyix) __builtin expect (!! (x), 1)} 


tdefine unlikely!lx) _builtin exomect (lllix})}, 0 
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下 面 的 例子 将 一 个 分 支 标记 成 不 可 能 为 真 ， 也 就 是 有 可 能 为 假 
int ret; 
ret = close (fdl}: 


i unlikely ret}) 
Perror ("close”}; 


反 过 来 说 ,下面 的 例子 将 一 个 分 支 标记 成 有 可 能 为 真 : 
conNnst char *home; 


home = geteny ("HOME"); 
if (iikely {home)) 
printf ("Your home directory is 和 Sm home):; 


人 二 号 忌 
fprintf (stderr, "Environment variable HOME not set!'\n"); 


如 同 内 候 尔 数 ,， 程序 设计 者 往往 会 过 度 使 用 分 支 和 注释。 一旦 开始 标记 表达 式 ， 你 就 可 能 
会 有 想 标记 所 有 表达 式 的 名 动 。 但 是 请 注意 , 除非 你 可 以 当场 毫 无 疑问 地 看 出 表达 式 几 
平 在 任何 时 刻 【例如 有 99 % 的 确定 性 ) 和 将 为 真 或 假 ， 否 则 你 不 应 该 将 表达 去 标记 成 
likely 或 unlikely。 很 少 发 生 错 误 者 适合 使 用 unlikely()。 然 而 ,请 记 住 ， 预 
测 错误 比 不 预测 还 精 糕 。 


二 | 彼 虽 生 

取得 一 个 表达 式 的 数据 类 型 
GCC 所 提供 的 typeof () 关键 字 可 用 于 取得 指定 表达 式 的 数据 类 型 。 就 语义 而 言 , 此 
关键 字 的 运作 如 同 sizecof {)。 例 如 ,下面 的 表达 式 会 返回 x 所 指向 的 对 象 的 数据 类 
型 |， 

typeof ({*x) 
我 们 可 以 使 用 此 数据 类 型 来 声明 一 个 数组 Y: 

typeotf (*x) yld21; 
typeof () 常用 于 编写 “安全 的 ” 宏 ， 用 来 求 得 宏 参 数 的 类 型 ， 

#define maxia,.b) 1{{ 所 

typeof la} _a ‘aj; 


typeof (tb) _b (tbh): 忆 
王 = br? a : bhb; 
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取得 一 种 数据 类 型 的 对 齐 边界 
GCC 所 提供 的 _ _alignof__ 关键 字 可 用 于 取得 指定 对 象 的 对 齐 边 界 。 此 值 因 染 构 
和 ABI 而 异 。 如 果 当 前 的 架构 没有 要 求 对 齐 边界 ， 则 此 关键 字 会 返回 ABI 所 建议 的 对 
齐 边界 ; 否则 ， 此 关键 字 会 返回 所 要 求 的 最 小 对 齐 边 界 。 
语法 如 同 sizeof () : 

__alignof__t(int) 
依据 架构 的 不 同 ， 这 可 能 会 返回 4， 因 为 32 位 的 整数 一 般 会 对 齐 4 个 字 节 的 边界 。 
此 关键 字 也 可 以 用 于 左 值 。 在 此 情况 下 ， 所 返回 的 是 支持 的 数据 类 型 的 最 小 对 齐 边 分 ， 
而 不 是 指定 左 值 的 实际 对 齐 边界 。 如 果 最 小 对 齐 边 界 已 被 aligned 属性 改变 (参见 和 
早 在 “扩大 变量 的 对 齐 边 界 ” 一 节 所 做 的 说 明 )， 则 _ _alignof__ 会 反映 改变 的 结 
果 。 
例如 ， 下 面 的 结构 ; 


struct ship | 
int wyear_built.; 
har canons; 
int mast. height:; 
}: 


搭配 下 面 的 程序 代码 厂 段 ; 
struct ship my_ship:; 
printf {"$%d\n", __alignof__i{my_ship,canons)); 


此 程序 代码 片段 中 的 __alignof__ 将 返回 1, 即使 结构 的 填充 可 能 会 导致 canons 
耗 用 4 个 字 节 。 


结构 中 指定 成 员 的 仿 移 量 


GCC 提供 了 一 个 内 置 的 关键 字 ， 可 用 于 取得 结构 成 员 在 该 结构 中 的 偶 移 量 。 
offsetof() 关键 字 定 义 于 <stdaef.h>， 是 ISOC 标准 的 一 部 分 。 它 的 定义 多 半 
令 人 生 妇 ,涉及 了 讨 人 厌 的 指针 计算 和 不 适合 新 手 的 程序 代码 。GCC 所 提供 的 扩展 较 
为 简单 而 且 可 能 更 快 : 


#define sffsetof (type, member} __builtin coffsetof ‘type, member) 


此 调用 会 返回 type 中 member 的 偏 移 量 一 一 也 就 是 从 结构 的 开头 至 指定 成 员 的 字 市 
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数目 (由 零 起 算 )。 例 如 ， 下 面 有 的 结构 : 


struct rowbhoat 1 
char *boat_name:; 
unsigqned int nr oars; 
short length; 
上 
实际 的 偏 移 量 取决 于 变量 的 大 小 以 及 架构 的 对 齐 需 求 与 填充 的 行为 ， 但 古 在 32 位 机 给 
上 ， 我 们 可 以 预期 ,对 struct rowboat 以 及 boat_name, nr_oars 和 length 
调用 of fsetof () 会 分 别 返 回 0、4 和 8。 


在 Linux 系统 上 ， 应 该 使 用 GCC 的 关键 字 来 定义 offsetof () 宏 ， 而 不 需要 重新 定 
Ws 


取得 郑 数 的 返回 地 址 

GCC 提供 了 一 个 关键 字 用 于 取得 当前 函数 的 返回 地 址 或 当前 函数 的 其 中 一 个 调用 者 : 
void * __builtin return address (unsigned int level) 

参数 level 用 于 指出 应 该 返回 调用 链 (call chain) 中 哪个 函数 的 地 址 。 值 为 0 用 于 要 


求 当 前 国 数 的 返回 地 址 ， 全 为 1 用 于 要 求 当前 锅 数 调用 者 的 返回 地 址 ， 值 为 2 用 于 要 
求 育 ”图 数 因 用 者 的 返回 地 址 ， 依 此 类 推 。 


如 来 当前 函数 是 一 个 内 榜 畏 数 ， 则 所 返回 的 就 是 进行 调用 的 函数 的 地 址 。 如 果 这 是 不 
可 接受 的 ， 可 使 用 noinline 关键 字 (参见 稍 早 在 “禁止 内 杠 ” 一 布 所 做 的 说 明 ) 迫 
使 编译 副 不 要 二 人 函数 。 

__builtin_return_address 关键 字 有 阁 干 用 法 ,一 种 是 作为 调试 或 提供 信息 用 ， 
男 一 种 是 用 于 解 开 调 用 链 (call chain), 以 便 实 现 “ 自 省 ”(introspection) 的 能 力 、crash 
dump 工具 、 调 试 程序 等 。 


注 种 ,有 些 架 构 只 会 返回 进行 调用 的 国 数 的 地 址 。 在 此 业 架 构 上 ,， 非 零 的 参数 值 会 产生 
随机 的 返回 值 。 因此， 任何 非 零 的 参数 都 是 不 有 具 可 移植 性 的 ， 而 且 应 该 只 用 于 调试 。 


笋 例 沦 围 
GCC 苑 计 case 语句 标签 为 单一 块 指定 一 个 范围 值 。 语 法 如 下 : 


CaSe Jow ... high: 
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例如 : 


swibch (valy 1{ 

cagse 1 ... 10: 
下 
break: 

case 11 ... 20: 


而 而 = 

break: 
default: 

3 遇 国 i 


[ 
此 功能 对 于 ASCII 的 案例 范围 也 相当 有 用 : 
Case A 。. 区: 


注意 ， 三 点 号 (…) 的 前 后 应 该 有 一 个 空格 ,否则 编译 器 可 能 会 被 搞 混 ， 尤 其 契 在 使 用 
整数 范围 的 时 候 。 所 以 你 一 定 要 这 么 做 


CaSe 4 ..,. 8: 
不 要 这 么 做 : 


福生 名 下 -总 : 


| ET 已 
void 以 及 函数 指针 计算 
GCC 人 允许 对 指向 void 业 型 的 指针 以 及 指向 国 数 的 指针 进行 加 法 以 及 减法 的 运算 。 一 
般 而 言 ，ISO C 并 不 允许 对 此 类 指针 进行 运算 ， 因 为 “voia 的 大 小 ”是 一 个 轧 右 的 概 
会， 而 且 取决 于 指针 实际 所 指向 的 对 象 。 为 了 让 此 类 运算 容易 进行 ，GCC 将 所 指向 对 
象 的 大 小 视 为 一 个 字 节 。 因 此 ， 如 下 的 程序 代码 片段 便 可 以 让 a 前 进一步 ， 


atti /* a 是 -个 Woig 指针 */ 


选项 -Wpointer-arith 用 于 提示 GCC 在 使 用 此 扩展 功能 时 产生 一 个 警告 信息 。 


更 具 可 移植 性 并 且 更 美观 


老实 说 ，_ _attribute__ 的 语法 并 不 美观 。 本 章 所 提 到 的 扩展 功能 中 有 一 些 基本 上 
需要 使 用 预 处 理 避 宏 以 便 粉 饰 其 外 观 ， 好 让 它们 的 使 用 和 贫 心 悦目 。 


这 并 不 难 ， 只 需要 用 到 些许 的 预 处 理 器 魔法 。 此 外 ， 相 同 的 动作 在 非 GCC 编译 鞍 (无 
论 它 是 哪 种 编译 器 ) 的 情况 下 ， 遂 过 取消 GCC 扩展 的 定义 ， 我 们 可 以 让 GCC 的 扩展 
具有 可 移植 性 。 
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要 完成 此 事 , 请 将 如 下 的 程序 代码 放 入 头 文件 中 ,并 且 在 你 的 源码 文件 中 引用 该 头 文件 


## 斌 王 


井 


厅 


Undet 

define 
define 
define 
define 
define 
def ine 
define 
define 
define 
define 
def1ine 
def ine 
站 已 上 上 工 责 忆 
define 
Qef 1ne 


define 
define 
define 
definie 
define 
define 
define 


define 


define 
def1ine 
define 
define 
define 


#endif 


例如 ， 下 面 的 程序 代码 使 用 我 们 的 简写 将 一 个 函数 标注 为 纯 函 数 ， 


— GNUC_ 


>= 3 
inline 
1nl1ine 
__noinline 

_ Eure 

. Const 

__ noreturn 
_malloc 

__ mist check 
_ Adenprecated 
__ used 
__Unuseqa 
Packed 
_alignix) 
__ align_max 
likely (x) 
Unlikely {x) 


_ noinline 
Pure 
Const 
___Noreturn 
__ malloc 
_must check 


__deaeprecated 
__USed 
__Uunused 
__Packed 
__alignl(x) 
__align max 
likely (x) 
unlikely (x) 


__pure int foo {void) 


inline _ attribute_  _ 
aAttribute _ 
_attribute__ 
__aAttribute _ 
_ atrribute _ 


‘(always_inline}))} 
(tnoinline))} 

( (DUre)) 

(Iconst)) 

Tinoreturn)) 


attribute _ {tmalloc})) 
attribute__ ({warn_unused_result)})) 
_attribute _ lideprecated}) 
attribute___ {{(used)) 
attribute _ {tf{unused})} 
Aattribute_ _ ((lpacked))} 
attribute _ ‘laligned (x}}) 


attribute 
__builtin expect 
__bhuiltin expect 


rr 
A 


” 
有 寅 


雪 


A* I 
A* 1 


六 


A™ 


上 弗 
i 


-A 


» 过 
[Xx) 
(x} 


i 


(ialigned})} 
{1!l({x}, 


1} 
0) 


1 TIDiniine */ 


Bure */ 

const *y 
noreturn *y 
malloc *)/ 
warn Unused_result *y 
deprecated */ 
se */ 
UNnUused *) 
packed */ 
aligned */ 
align max */ 


和 


如 果 编 译 器 是 GCC， 则 该 函数 会 被 标 上 pure 属性 ， 如 果 编 译 器 不 是 GCC， 则 预 处 理 
苹 会 将 __pure 记号 (token) 替换 成 no-op (无 操作 )。 注 意 ， 你 可 以 把 多 个 属性 放 
在 单一 的 定义 项 中 ， 因 此 你 可 以 在 单一 定义 项 中 使 用 多 个 此 类 定义 而 训 无 问题 。 


更 方便 、 更 美观 并 且 可 移植 ! 





此 处 将 所 推荐 的 系统 编程 相关 书籍 分 成 四 类 。 读者 并 不 需要 阅读 这 些 著作 , 它们 只 是 关 
于 特定 议题 我 所 阅读 的 书籍 。 你 是 否 发 现 自己 渴望 了 解 此 处 所 推荐 的 书籍 ， 它们 都 是 我 
的 最 爱 。 


这 些 书籍 中 ， 有 些 可 让 读者 获得 阅读 本 书 所 需 具备 的 基本 知识 ， 例 如 C 程序 语言 ， 有 
些 可 作为 本 书 的 绝 佳 补充 资料 ， 例 如 探讨 gdb、Subversion (syn) 或 操作 系统 设计 的 书 
籍 ， 有 些 所 探讨 的 是 本 书 范围 以 外 的 课题 ， 例 如 multithreading of socket。 无 论 如 何 ， 
你 都 可 以 参考 它们 。 当 然 ， 这 份 书目 绝 不 可 能 列 得 完整 你 可 以 随心 所 谷地 探索 其 
他 痪 源 。 


C 程序 语言 相关 书籍 
下 面 所 列 的 是 探讨 C 程序 语言 的 书籍 。C 是 系统 编程 的 共同 语言 。 如 果 你 并 不 编写 C 
程序 ,而 是 使 用 过 其 他 的 程序 语言 ， 其 中 应 该 也 可 以 找到 对 你 有 所 帮助 的 书籍 。 如 果真 
的 找 不 到 ， 不 要 错过 第 一 本 书 一 一 著名 的 大 用 R。 它 向 明 扼 要 地 呈现 了 C 语言 的 简单 
性 。 
(The C Programming Language, 2nd ed.»》 (Prentice Hall 1988 年 出 版 )， Brian W- 
Kernighan 和 Dennis M. Ritchie 编写 ， 
本 书 是 C 程序 设计 的 圣经 。 它 由 CC 程序 语言 的 作者 以 及 他 当时 的 合作 者 共同 编 
2 





4C in a Nurtshell) ( O:Reilly Media 2005 年 出 版 )，Peter Prinz 和 Tony Crawford 编 写 ， 
这 是 一 本 好 书 ， 内 容 涵盖 C 语言 以 及 标 淮 C 链接 库 。 
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《C Pocket Reference》 ( O'Reilly Media 2002 年 出 版 ), Peter Prinz 和 Ulla Kirch-Prinz 
编写 。 
这 是 一 本 简明 的 C 语言 参考 手册 ， 内 容 池 次 ANSI C99。 

(Expert C Proeramming》 ( Prentice Hall 1994 年 出 版 )，Peter van der Linden 编写 。 
对 C 程序 语言 较 不 为 人 知 的 方面 进行 了 精彩 的 讨论 ， 内 容 次 富 知 总 及 幽默 感 。 这 
本 书 充 满 了 风 马 牛 不 相 及 的 笑话 ， 但 是 我 非 香 喜欢 。 

《C Prooramming FAOs: Freguenily Asked OQuestions, 2nd ed»( Addison-Wesley 1995 年 
中 版 )，Steve Summit 编写 。 
本 书包 含 了 400 个 以 上 关于 C 程序 语言 的 常见 问题 与 解答 (FAQ)。FAQ 中 有 许 
多 问题 与 解答 在 C 专家 眼中 视 为 理所当然 ， 但 是 其 中 一 些 更 重要 的 问题 与 解答 其 
至 会 令 最 博学 的 C 程序 设计 者 印象 次 刻 。 如 朱 你 可 以 回 苑 所 有 的 问题 ， 你 才 征 一 
个 真正 的 C 语言 高 手 ! 本 书 的 唯一 徐 点 是 疝 未 更 新 成 符合 ANSI1 C99， 因 为 已 经 
发 人生 了 一 些 变 化 (我 在 自己 的 书 上 直接 做 了 修正 )。 注 意 本 书 的 在 线 版 本 ， 有 可 能 
最 近 已 经 做 了 更 新 。 


Linux 编程 相关 书籍 


下 面 是 有 关 Linux 编程 的 书籍 ， 包 括 本 书 并 未 探讨 的 主题 (socket、IPC 以 及 pthread) 
以 及 Linux 编程 工具 (CVS, GNU Make 以 及 Subversion ) 。 


(Unix Network Programming, Volume 1: The Sockets Networking API, 3rd ed.){ Addison- 
Wesley 2003 年 出 版 1]，W. Richard Stevens 等 人 编写 。 
这 是 一 本 基于 socket API 的 权威 巨著 ， 可 惜 不 是 专 为 Linux 而 写 ， 不 过 最 近 加 入 
了 IPv6 的 内 容 。 

CUNIX Netrwork Programming, Volume 2: Interprocess Communications, 2nd ed.» (Prentice 
Hall 1998 年 出 版 )，W. Richard Stevens 编写 。 
本 书 对 进程 间 通 信 (IPC) 做 了 绝 佳 的 探讨 。 

PThreads Programming: A POSIX Standard for Bertter Multiprocessingy ( OReilly 
Media 1996 年 出 版 )，Bradford Nichols 等 人 编写 。 
本 书 介绍 了 POSIX 的 threading API (pthread ) 。 
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Managing Projects with GNU Make, 3rd ed.» ( OReilly Media 2004 年 出 版 )，Robert 


Mecklenburg 编写 。 
这 是 一 本 绝 佳 的 GNU Make 指南 , 在 Linux 中 , GNU Make 是 建立 软件 项 目的 典 
型 工具 。 


(Essential CVS, 2nd ed.》({ O'Reilly Media 2006 年 出 版 )，Jennifer Versperman 编写 。 
这 是 一 本 绝 佳 的 CYS 指南 , 在 Unix 系统 中 , CYS 是 进行 版 本 控制 以 及 源码 管理 
的 典型 工具 。 

CVersion Control with Subversion)》 ( O'Reilly Media 2004 年 出 版 )，Ben Collins- 
Sussman 等 人 编写 。 
Subversion 是 CVS 的 替代 品 , 在 Unix 系统 中 ，Subversion 可 用 于 进行 版 本 控制 
以 及 源码 管理 。 本 书 由 Subversion 的 二 位 作者 共同 编写 。 

《CDB Pocket Reference》 ( O'Reilly Media 2005 年 出 版 1)，Arnold Robbins 编写 。 
这 是 一 本 关于 gdb (Linux 的 调试 程序 ) 的 参考 手册 。 


(Linux in a Nutshell, 5th ed (O'Reilly Media 2005 年 出 版 ), Ellen Siever 等 人 编写 。 
这 是 一 本 无 所 不 包 的 Linux 参考 书籍 , 书 中 包括 构成 Linux 开发 环境 的 诗 多 工具 ，。 


Linux 内 核 相 关 书 夭 


此 处 列 出 了 两 本 探讨 Linux 内 核 的 著作 。 探 究 这 个 主题 的 理由 有 三 个 。 站 先 ， 内 核 为 

用 户 空间 提供 了 系统 调用 接口 ， 因此 它 是 系统 编程 的 关键 所 在 。 其 次 , 内核 的 行为 与 特 

色 揭 示 了 它 与 所 运行 的 应 用 程序 的 交互 方式 。 最 后 ，Linux 内 核 是 一 个 令 人 赞赏 的 程序 

实现 ， 而 且 这 两 本 书 都 很 有 趣 。 

(Linux Kernel Development, 2nd ed.》( Novell Press 2005 年 出 版 }, Robert Love 编写 。 
此 书 非常 适合 想 了 解 Linux 内 核 设计 和 实现 的 系统 编程 者 ( 当然 ， 我 还 古 必 须 提 
到 我 自己 在 这 个 主题 的 著作 1 )。 本 书 不 十 一 本 API 参考 手册 ， 书 中 对 Linux 内 
核 所 使 用 的 算法 以 及 所 作 的 决策 着 墨 其 多 。 

(Linux Device Drivers, 3rd ed.»》 (O'Reilly Media 2005 年 出 版 )，jJonathan Corbet 等 人 
这 是 一 本 非常 重要 的 指南 ， 它 会 告诉 你 如 何苦 Linux 内 核 编写 驱动 程序 ， 随 附 绝 
佳 的 API 参考 和 资料。 尽管 本 书 的 重点 放 在 设备 驱动 程序 上 ， 但 是 书 中 所 作 的 讨论 
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将 有 益 于 任何 类 型 的 编程 人 员 ， 包 括 仅 想 深 入 了 解 Linux 内 核 内 幕 的 系统 编程 人 
员 。 此 书 可 以 弥补 我 这 本 书 的 不 足 。 


操作 系统 设计 相关 书籍 


下 面 两 本 著作 并 未 具体 论述 Linux, 而 是 以 抽象 的 概念 来 探讨 操作 系统 设计 。 正 如 我 在 
本 书 所 强调 的 ， 充 分 了 解 你 所 设计 的 系统 的 唯一 目的 就 是 改善 你 的 输出 。 


(Operating Systems, 3rd ed.»》 (Prentice Hall 2003 年 出 版 )}，Harvey Deitel 村 人 编写 。 


本 书 是 一 本 精心 的 杰作 , 它 除 了 探讨 操作 系统 设计 的 理论 ,还 提供 了 一 流 的 案例 妍 
究 , 并 将 理论 应 用 到 实践 中 ,环顾 所 有 的 操作 系统 设计 相关 书籍 ,我 最 喜欢 这 本 书 ， 
因为 它 的 现代 性 、 可 读 性 和 完整 性 ， 

CUNIX Systems for Modern Architectures: Symmeitric Multiprocessing and Caching for 
Kernel Programming》 (Addison-Wesley 1994 年 出 版 )，Curt Schimmel 编写 。 


虽然 本 书 主要 探讨 系统 编程 ,但 是 本 书 蔡 并 行 性 与 现代 缓存 机 制 的 问题 提供 了 绝 佳 
的 解决 方案 ， 我 其 至 向 我 的 牙医 推荐 这 本 书 。 


